Arbital на русском

Ментальное преступление

«‎Ментальное преступление» (англ. «‎mindcrime») — предложенный Ником Бостромом термин для обозначения сценариев, в которых когнитивные процессы ИИ наносят моральный вред внутри него — например, потому что ИИ внутри себя содержит триллионы страдающих сознательных существ.

Варианты того, как это может произойти:

Проблема разумных моделей людей: естественным образом появляется, если среди наилучших предсказательных моделей окружающих людей есть такие, которые достаточно детализированы, чтобы и сами быть людьми.

Проблема разумных моделей цивилизаций: естественным образом появляется, если агент пытается моделировать, например, инопланетные цивилизации (которые, возможно, моделируют его), и его модель достаточно подробна, чтобы включать в себя сознательные симуляции инопланетян.

Проблема разумных подсистем: естественным образом появляется, если наиболее эффективное устройство каких-то когнитивных подсистем включает в себя создание субагентов, которые саморефлексивны или имеют какое-то другое свойство, ведущее к сознательности или делающее личностью.

Проблема разумных моделей себя: если ИИ сознателен или возможные будущие версии ИИ сознательны, то в ходе рассмотрения возможных самомодификаций он может запускать и останавливать большое количество сознательных моделей себя.

Содержание

Проблема разумных моделей людей

Инструментальное давление в сторону получения высокоточных предсказаний поведения человеческих существ (или к предсказаниям контрфактуальных решений о них, или к поиску событий, которые приводят к определенным последствиям, и т.д.) может привести к тому, что ИИ будет выполнять вычисления, которые с необычайно высокой вероятностью являются личностями.

Нереалистичным примером этого была бы индукция Соломонова, в которой предсказания делаются средствами, включающими в себя выполнение многих возможных симуляций окружающей среды и определение того, какие из них лучше всего соответствуют реальности. Из современных алгоритмов машинного обучения фильтры частиц и алгоритмы Монте-Карло тоже включают в себя выполнение многих возможных симулированных версий системы.

Вполне возможно, что ИИ, достаточно продвинутый для составления детальных моделей человеческого интеллекта, обычно будет продвинутым настолько, чтобы никогда не использовать предсказательную/поисковую модель, которая занимается симуляциями людей методом «грубой силы». (К примеру, если обычно будет много возможных настроек переменных внутри модели, то эффективная модель вместо рассмотрения каких-либо точно и в целости смоделированных конкретных людей может манипулировать данными, представляющими распределение вероятностей по этим настройкам переменных.)

Однако, это не гарантирует, что никаких ментальных преступлений не будет. Для создания сознательной модели ИИ могут не требоваться точные симуляции конкретных людей. Эффективная модель (размаха возможностей) человека все равно может содержать достаточное количество вычислений, достаточно похожих на личность, чтобы образовать сознание или дать модели любые другие свойства, делающие ее личностью.

Почти наверняка нет необходимости спускаться до нейронного уровня, чтобы создать разумное существо. Точно также может оказаться, что хотя некоторые части разума рассматриваются лишь абстрактно, остальные вычислены достаточно детально, чтобы породить сознание, разум, личностность и т. д.

Проблему разумных моделей не следует путать с гипотезой симуляции, т. к. эффективная модель человека не обязана иметь субъективный опыт, неотличимый от человеческого (хотя она будет моделью человека, который не верит в то, что он — лишь модель). Обсуждаемая проблема появляется, когда модель является личностью, а не когда она тождественна тому лицу, которое она моделирует — последнее обстоятельство не играет роли в оценках последствий морального вреда.

Помимо задач, которые прямо или очевидно связаны с моделированием людей, есть много других практических задач и вопросов, решению которых может помогать моделирование других умов. Например, чтение инструкций на тостерной печи, чтобы понять намерения ума, который пытался объяснить, как пользоваться тостером. Таким образом, ментальное преступление может быть результатом того, что достаточно мощный ИИ пытается решить совершенно обыденные задачи.

Проблема разумных моделей цивилизаций

Отдельный путь к ментальному преступлению исходит от продвинутого агента, который достаточно подробно рассматривает возможное происхождение и будущее разумной жизни в других мирах. (Представьте, что вам внезапно сообщили, что эта версия вас на самом деле встроена в сверхинтеллект, который представляет себе, как может развиваться жизнь в месте, подобном Земле, и что вычисление вашей жизни производило недостаточно ценной информации и его собираются остановить. Вы, вероятно, будете рассержены! Мы должны попытаться не сердить вот так других людей.)

Есть три возможных причины конвергентного инструментального давления в сторону детального рассмотрения разумных цивилизаций:

Что касается последних двух возможностей, стоит отметить, что ИИ не обязательно рассматривать возможности, в которых вся Земля, какой мы ее знаем, является симуляцией. ИИ просто нужно учитывать, что среди возможных объяснений его текущих сенсорных и внутренних данных есть сценарии, в которых он встроен в какой-то другой мир помимо самого “очевидного” из подразумеваемых сенсорными данными. См. также «‎Отдаленные сверхинтеллекты могут навязывать вашему ИИ наиболее вероятное окружение» о связанной с этим опасности, когда ИИ рассматривает возможности того, что его симулируют.

(Элиезер Юдковский выступал за то, чтобы мы в любом случае не оставляли ни один ИИ, рассматривающий отдаленные цивилизации, без экстремальных уровней безопасности и надежности, поскольку в процессе наш ИИ может встроить в себя (модель) враждебного сверхинтеллекта.)

Проблема разумных подсистем

Возможно, что наиболее эффективная система для, к примеру, распределения памяти на локальном кластере, представляет собой полноценного рефлексивного агента, имеющего модель самого себя. Или что какие-то из наиболее эффективных вариантов устройства подпроцессов в ИИ, в общем имеют те свойства, которые приводят к появлению сознания или делают личностью.

Это может представлять собой сравнительно менее серьезную моральную катастрофу в том случае, если подсистемы сознательны, но не имеют архитектуры подкрепления удовольствием/болью (неочевидно, что такая архитектура необходима для наиболее эффективных субагентов). В этом случае большое количество сознательных существ могут быть встроенными в ИИ и иногда умирать во время замены, но они не будут страдать. Тем не менее многие из нас предпочли бы избежать и такого сценария.

Проблема разумных моделей себя

Создаваемые ИИ модели самого себя или других ИИ, которых он мог бы построить, могут оказаться сознательными или иметь другие свойства, делающие личностью. Эту возможность стоит рассматривать как отдельную от того случая, когда мы сами ненамеренно создаем сознательного или обладающего личностью ИИ, по следующим двум дополнительным причинам:

Сложности

Попытки рассмотреть эти проблемы усложнены по следующим причинам:

Было бы лучше, если бы мы знали ответы на эти вопросы. Но то, что мы их не знаем, не значит, что мы можем заключить, что какая-то конкретная модель — не личность. (Это была бы какая-то смесь аргумента к незнанию и предвзятости в отношении доступности, заставляющая нас думать, что сценарий маловероятен, если его трудно представить.) В пределе при бесконечной вычислительной мощности эпистемически наилучшие модели людей почти наверняка включали бы симулирование многих возможных их версий. А у сверхинтеллектуальных агентов будет очень много вычислительной мощности, и мы не знаем, в какой момент они подойдут достаточно близко к наилучшему моделированию людей, чтобы пересечь порог.

Масштабы потенциальной катастрофы

Возможность ментального преступления особенно тревожна. Поскольку достаточно продвинутые агенты, особенно если они используют вычислительно эффективные модели, могут рассматривать очень большое число гипотетических возможностей, которые будут личностями внутри них. Нет предела — вроде того, что если есть семь миллиардов людей, то агент будет запускать не более семи миллиардов моделей. Ведь агент может рассматривать множество вариантов для каждого отдельного человека. Это не было бы астрономической катастрофой, поскольку (гипотетически) это не уничтожило бы наших потомков и межгалактическое будущее. Но это могло бы быть бедствием на порядки ужаснее, чем Холокост, монгольские завоевания, Средние века, или все известные человеческие трагедии.

Проблема порядка разработки

Если мы попросим ИИ предсказать, что бы мы сказали, если бы у нас была тысяча лет подумать о проблеме определения личности или о том, какие каузальные процессы являются “сознательными”, то выглядит необычайно вероятным, что ИИ совершит ментальное преступление в процессе ответа на этот вопрос. Это выглядит таким даже в случае просьбы к ИИ поразмышлять абстрактно о проблеме сознания или предсказать с помощью абстрактных рассуждений, что люди могли бы сказать на эту тему. Так что встает проблема порядка разработки, мешающая нам попросить Дружественный ИИ решить для нас эту задачу, поскольку выполнить такой запрос безопасно и без совершения ментального преступления можно было бы лишь тогда, когда поставленная задача уже решена.

Перспектива крупномасштабной катастрофы препятствует идее “временно” мириться с ментальными преступлениями внутри системы, в то время как агенты, основанные, например, на экстраполированном волении или одобрении, пытаются вычислить код или устройство агента, который не совершал бы ментальных преступлений. В зависимости от эффективности агента и, во вторую очередь, от его вычислительных пределов, в процессе “временного” вычисления ответа может быть уже нанесен огромный моральный ущерб.

Странность

Буквально никто за пределами MIRI и FHI не говорит об этой проблеме. (На самом деле это не так: эту тему уже довольно давно поднимают по меньшей мере авторы из CLR и CRS в контексте s-рисков — прим. пер.)

Неличностные предикаты

Неличностный предикат — это эффективный тест, который можем использовать мы или ИИ, чтобы определить, что какая-то компьютерная программа точно не является личностью. В принципе, неличностный предикат требует наличия всего двух возможных ответов: «‎не знаю» и «точно не личность». Приемлемо, если многие программы, не являющиеся личностями, будут помечены ответом «‎не знаю», покуда ни одна личность не помечена ошибочно ответом «‎точно не личность».

Если бы приведенное выше требование было единственным, то одним простым неличностным предикатом был бы тот, который обозначает все подряд как «‎не знаю». Неявная трудность заключается в том, что неличностный предикат должен также пропускать (распознавать как не-личности) какие-нибудь программы высокой сложности, которые делают такие вещи, как «‎приемлемое моделирование людей» или «‎приемлемое моделирование будущих версий ИИ».

Помимо сценариев ментальных преступлений, первоначальное предложение Юдковского было направлено также на то, чтобы знать, когда само устройство ИИ не обладает сознанием или не является личностью.

Похоже, скорее всего будет сложно найти хороший неличностный предикат:

Пути исследований


Категории: Согласование ИИ
Оригинал: Mindcrime (читать на GreaterWrong)    Перевод: К. Кирдан (с небольшими сокращениями, добавлены ссылки)

Материалы распространяются по лицензии CC BY 3.0