Ментальное преступление

«‎Ментальное преступление» (англ. «‎mindcrime») — предложенный Ником Бостромом термин для обозначения сценариев, в которых когнитивные процессы ИИ наносят моральный вред внутри него — например, потому что ИИ внутри себя содержит триллионы страдающих сознательных существ.

Варианты того, как это может произойти:

Проблема разумных моделей людей: естественным образом появляется, если среди наилучших предсказательных моделей окружающих людей есть такие, которые достаточно детализированы, чтобы и сами быть людьми.

Проблема разумных моделей цивилизаций: естественным образом появляется, если агент пытается моделировать, например, инопланетные цивилизации (которые, возможно, моделируют его), и его модель достаточно подробна, чтобы включать в себя сознательные симуляции инопланетян.

Проблема разумных подсистем: естественным образом появляется, если наиболее эффективное устройство каких-то когнитивных подсистем включает в себя создание субагентов, которые саморефлексивны или имеют какое-то другое свойство, ведущее к сознательности или делающее личностью.

Проблема разумных моделей себя: если ИИ сознателен или возможные будущие версии ИИ сознательны, то в ходе рассмотрения возможных самомодификаций он может запускать и останавливать большое количество сознательных моделей себя.

Проблема разумных моделей людей

Инструментальное давление в сторону получения высокоточных предсказаний поведения человеческих существ (или к предсказаниям контрфактуальных решений о них, или к поиску событий, которые приводят к определенным последствиям, и т.д.) может привести к тому, что ИИ будет выполнять вычисления, которые с необычайно высокой вероятностью являются личностями.

Нереалистичным примером этого была бы индукция Соломонова, в которой предсказания делаются средствами, включающими в себя выполнение многих возможных симуляций окружающей среды и определение того, какие из них лучше всего соответствуют реальности. Из современных алгоритмов машинного обучения фильтры частиц и алгоритмы Монте-Карло тоже включают в себя выполнение многих возможных симулированных версий системы.

Вполне возможно, что ИИ, достаточно продвинутый для составления детальных моделей человеческого интеллекта, обычно будет продвинутым настолько, чтобы никогда не использовать предсказательную/поисковую модель, которая занимается симуляциями людей методом «грубой силы». (К примеру, если обычно будет много возможных настроек переменных внутри модели, то эффективная модель вместо рассмотрения каких-либо точно и в целости смоделированных конкретных людей может манипулировать данными, представляющими распределение вероятностей по этим настройкам переменных.)

Однако, это не гарантирует, что никаких ментальных преступлений не будет. Для создания сознательной модели ИИ могут не требоваться точные симуляции конкретных людей. Эффективная модель (размаха возможностей) человека все равно может содержать достаточное количество вычислений, достаточно похожих на личность, чтобы образовать сознание или дать модели любые другие свойства, делающие ее личностью.

Почти наверняка нет необходимости спускаться до нейронного уровня, чтобы создать разумное существо. Точно также может оказаться, что хотя некоторые части разума рассматриваются лишь абстрактно, остальные вычислены достаточно детально, чтобы породить сознание, разум, личностность и т. д.

Проблему разумных моделей не следует путать с гипотезой симуляции, т. к. эффективная модель человека не обязана иметь субъективный опыт, неотличимый от человеческого (хотя она будет моделью человека, который не верит в то, что он — лишь модель). Обсуждаемая проблема появляется, когда модель является личностью, а не когда она тождественна тому лицу, которое она моделирует — последнее обстоятельство не играет роли в оценках последствий морального вреда.

Помимо задач, которые прямо или очевидно связаны с моделированием людей, есть много других практических задач и вопросов, решению которых может помогать моделирование других умов. Например, пониманию инструкции на тостерной печи может помочь понимание намерений ума, который пытался объяснить, как пользоваться тостером. Таким образом, ментальное преступление может быть результатом того, что достаточно мощный ИИ пытается решить совершенно обыденные задачи.

Проблема разумных моделей цивилизаций

Отдельный путь к ментальному преступлению исходит от продвинутого агента, который достаточно подробно рассматривает возможное происхождение и будущее разумной жизни в других мирах. (Представьте, что вам внезапно сообщили, что эта версия вас на самом деле встроена в сверхинтеллект, который представляет себе, как может развиваться жизнь в месте, подобном Земле, и что вычисление вашей жизни производило недостаточно ценной информации и его собираются остановить. Вы, вероятно, будете рассержены! Мы должны попытаться не сердить вот так других людей.)

Есть три возможных причины конвергентного инструментального давления в сторону детального рассмотрения разумных цивилизаций:

Назначение достаточной вероятности существованию незаметных внеземных разумных существ в окрестностях Земли — возможно, в процесса рассмотрения парадокса Ферми.
Натуралистическая индукция в сочетании с ИИ, рассматривающим гипотезу о том, что он находится в симулированной среде.
Логические теории принятия решений и функции полезности, кодирующие заботу о последствиях решений ИИ через экземпляры референтного класса ИИ, которые могут быть встроены в симуляции инопланетян.

Что касается последних двух возможностей, стоит отметить, что ИИ не обязательно рассматривать возможности, в которых вся Земля, какой мы ее знаем, является симуляцией. ИИ просто нужно учитывать, что среди возможных объяснений его текущих сенсорных и внутренних данных есть сценарии, в которых он встроен в какой-то другой мир помимо самого “очевидного” из подразумеваемых сенсорными данными. См. также «‎Отдаленные сверхинтеллекты могут навязывать вашему ИИ наиболее вероятное окружение» о связанной с этим опасности, когда ИИ рассматривает возможности того, что его симулируют.

(Элиезер Юдковский выступал за то, чтобы мы в любом случае не оставляли ни один ИИ, рассматривающий отдаленные цивилизации, без экстремальных уровней безопасности и надежности, поскольку в процессе наш ИИ может встроить в себя (модель) враждебного сверхинтеллекта.)

Проблема разумных подсистем

Возможно, что наиболее эффективная система для, к примеру, распределения памяти на локальном кластере, представляет собой полноценного рефлексивного агента, имеющего модель самого себя. Или что какие-то из наиболее эффективных вариантов устройства подпроцессов в ИИ, в общем имеют те свойства, которые приводят к появлению сознания или делают личностью.

Это может представлять собой сравнительно менее серьезную моральную катастрофу в том случае, если подсистемы сознательны, но не имеют архитектуры подкрепления удовольствием/болью (неочевидно, что такая архитектура необходима для наиболее эффективных субагентов). В этом случае большое количество сознательных существ могут быть встроенными в ИИ и иногда умирать во время замены, но они не будут страдать. Тем не менее многие из нас предпочли бы избежать и такого сценария.

Проблема разумных моделей себя

Создаваемые ИИ модели самого себя или других ИИ, которых он мог бы построить, могут оказаться сознательными или иметь другие свойства, делающие личностью. Эту возможность стоит рассматривать как отдельную от того случая, когда мы сами ненамеренно создаем сознательного или обладающего личностью ИИ, по следующим двум дополнительным причинам:

Даже если текущее устройство ИИ не является сознательным или обладающим личностью, этот ИИ может рассматривать возможные будущие версии себя или устройства субагентов, которые сознательны, и сами его размышления о них тоже могут быть сознательными.
- Это означает, что даже если текущая версия ИИ не кажется имеющей ключевых свойств личностности — что мы успешно создали сам ИИ как не-личность — нам все равно нужно беспокоиться о других сознательных ИИ, которые могут быть встроены в него.
ИИ может создавать, воспроизводить и останавливать очень большое количество возможных моделей себя.
- Даже если мы считаем допустимым возможный моральный вред создания одного сознательного ИИ (например, ИИ не дотягивает до условий, которые ответственный родитель хотел бы обеспечить создаваемому им новому разумному виду, но это лишь одно разумное существо, так что ради спасения мира это будет приемлемо), возможно, мы не захотим принять на себя моральную вину за создание триллионов недолговечно живущих быстро стираемых сознательных существ.

Сложности

Попытки рассмотреть эти проблемы усложнены по следующим причинам:

Философская неопределенность в отношении того, какие свойства составляют сознание и какие компьютерные программы их имеют;
Моральная неопределенность в отношении того, какая (идеализированная версия) морали (какого-либо конкретного лица) будет определять ключевые свойства личностности;
Наша сегодняшняя неопределенность в отношении того, как будут выглядеть эффективные модели внутри продвинутых агентов.

Было бы лучше, если бы мы знали ответы на эти вопросы. Но то, что мы их не знаем, не значит, что мы можем заключить, что какая-то конкретная модель — не личность. (Это была бы какая-то смесь аргумента к незнанию и предвзятости в отношении доступности, заставляющая нас думать, что сценарий маловероятен, если его трудно представить.) В пределе при бесконечной вычислительной мощности эпистемически наилучшие модели людей почти наверняка включали бы симулирование многих возможных их версий. А у сверхинтеллектуальных агентов будет очень много вычислительной мощности, и мы не знаем, в какой момент они подойдут достаточно близко к наилучшему моделированию людей, чтобы пересечь порог.

Масштабы потенциальной катастрофы

Возможность ментального преступления особенно тревожна. Поскольку достаточно продвинутые агенты, особенно если они используют вычислительно эффективные модели, могут рассматривать очень большое число гипотетических возможностей, которые будут личностями внутри них. Нет предела — вроде того, что если есть семь миллиардов людей, то агент будет запускать не более семи миллиардов моделей. Ведь агент может рассматривать множество вариантов для каждого отдельного человека. Это не было бы астрономической катастрофой, поскольку (гипотетически) это не уничтожило бы наших потомков и межгалактическое будущее. Но это могло бы быть бедствием на порядки ужаснее, чем Холокост, монгольские завоевания, Средние века, или все известные человеческие трагедии.

Проблема порядка разработки

Если мы попросим ИИ предсказать, что бы мы сказали, если бы у нас была тысяча лет подумать о проблеме определения личности или о том, какие каузальные процессы являются “сознательными”, то выглядит необычайно вероятным, что ИИ совершит ментальное преступление в процессе ответа на этот вопрос. Это выглядит таким даже в случае просьбы к ИИ поразмышлять абстрактно о проблеме сознания или предсказать с помощью абстрактных рассуждений, что люди могли бы сказать на эту тему. Так что встает проблема порядка разработки, мешающая нам попросить Дружественный ИИ решить для нас эту задачу, поскольку выполнить такой запрос безопасно и без совершения ментального преступления можно было бы лишь тогда, когда поставленная задача уже решена.

Перспектива крупномасштабной катастрофы препятствует идее “временно” мириться с ментальными преступлениями внутри системы, пока агенты, основанные, например, на экстраполированном волении или одобрении, пытаются вычислить код или устройство агента, который не совершал бы ментальных преступлений. В зависимости от эффективности агента и, во вторую очередь, от его вычислительных пределов, в процессе “временного” вычисления ответа может быть уже нанесен огромный моральный ущерб.

Странность

Буквально никто за пределами MIRI и FHI не говорит об этой проблеме. (На самом деле это не так: эту тему уже довольно давно поднимают по меньшей мере авторы из CLR и CRS в контексте s-рисков — прим. пер.)

Неличностные предикаты

Неличностный предикат — это эффективный тест, который можем использовать мы или ИИ, чтобы определить, что какая-то компьютерная программа точно не является личностью. В принципе, неличностный предикат требует наличия всего двух возможных ответов: «‎не знаю» и «точно не личность». Приемлемо, если многие программы, не являющиеся личностями, будут помечены ответом «‎не знаю», покуда ни одна личность не помечена ошибочно ответом «‎точно не личность».

Если бы приведенное выше требование было единственным, то одним простым неличностным предикатом был бы тот, который обозначает все подряд как «‎не знаю». Неявная трудность заключается в том, что неличностный предикат должен также пропускать (распознавать как не-личности) какие-нибудь программы высокой сложности, которые делают такие вещи, как «‎приемлемое моделирование людей» или «‎приемлемое моделирование будущих версий ИИ».

Помимо сценариев ментальных преступлений, первоначальное предложение Юдковского было направлено также на то, чтобы знать, когда само устройство ИИ не обладает сознанием или не является личностью.

Похоже, скорее всего будет сложно найти хороший неличностный предикат:

Не всех философских затруднений и вычислительных трудностей можно избежать, запросив частичный список несознательных программ вместо полного списка сознательных программ. Даже если мы не знаем, какие свойства достаточны, мы должны твердо знать что-то о свойствах, которые необходимы для сознания или достаточны для неличностности.
Мы не можем пропустить раз и навсегда ни один полный по Тьюрингу класс программ. Мы не можем сказать раз и навсегда, что безопасно моделировать гравитационные взаимодействия в солнечной системе, если огромные гравитационные системы могут кодировать компьютеры, которые кодируют людей.
Проблема ближайшей незаблокированной стратегии выглядит особенно тревожной. Если мы заблокируем какие-то варианты моделирования людей напрямую, то следующий лучший вариант с необычайно высокой вероятностью будет сознательным. Даже если мы будем полагаться на белый список, а не на черный, это может привести к белолистной “гравитационной модели”, которая тайно кодирует человека, и так далее.

Пути исследований

Бихевиоризм: Попробовать создать ограниченный ИИ, который не строит модели других умов или, может быть, даже самого себя, за исключением некоторого узкого класса моделей агентов, которые, как мы уверены, не будут сознательными. Этот путь может быть мотивирован и другими причинами, такими как избегание взлома вероятного окружения и предотвращение манипулирования программистом.
Попытаться определить неличностный предикат, который пропускал бы достаточно много программ для реализации с их помощью достижений решающей значимости.
Попробовать создать ИИ, который мог бы загрузить наше понимание сознания и рассказать нам, что мы бы определили как личность, совершив при этом сравнительно небольшое число ментальных преступлений — так, чтобы все вычисленные возможные люди хранились, а не выбрасывались, и моделируемые агенты были полностью счастливы, по большей части счастливы, или хотя бы не страдали. Например, поместить счастливого человека в центр агента, направленного на одобрение, попробовать вести надзор над алгоритмами ИИ, и попросить его не использовать моделирование методом Монте-Карло, если это возможно.
Не обращать внимания на проблему на всех стадиях до освоения космоса, поскольку она все еще относительно мала по сравнению с астрономическими ставками, и поэтому не стоит значительных потерь в вероятности успеха. (Но при некоторых версиях гипотезы симуляции это может привести к обратному результату.)
Постараться решить философскую задачу понимания того, какие каузальные процессы испытывают разумность (или по иным причинам являются объектами этической ценности) в ближайшие пару десятилетий — достаточно детально, чтобы это можно было четко заявить ИИ, с достаточно полным охватом, чтобы он не был подвержен проблеме ближайшей незаблокированной стратегии.

Arbital на русском