ОИИ, основанный на поручениях, — это ОИИ, предназначенный для выполнения серий исходящих от человека приказов, каждый из которых ограничен какими-то рамками — «удовлетворимый» в том смысле, что его можно выполнить с помощью ограниченного объема усилий и ресурсов (в отличие от целей, которые можно выполнять все более и более хорошо, прилагая все больше и больше усилий).
В типологии Бострома это называется «джинн». Он контрастирует с ОИИ-«сувереном», который действует автономно, преследуя долгосрочные цели в реальном мире.
Создание безопасного ОИИ-для-поручений может быть проще, чем создание безопасного суверена, по следующим причинам:
- ОИИ-для-поручений может быть «на связи». Он потенциально может делать запросы к пользователю до и во время выполнения поручения. (Предполагая, что возникла неоднозначная ситуация и она успешно идентифицирована как неоднозначная.)
- ОИИ-для-поручений потенциально может быть в разных отношениях ограничен, поскольку для выполнения его ограниченных поручений ему не обязательно стремиться быть как можно более могущественным. Тогда как суверен, видимо, будет заниматься всесторонним самосовершенствованием. (Это не означает, что ОИИ-для-поручений автоматически не будет самоулучшаться, просто в принципе возможно ограничить мощность ОИИ-для-поручений только тем уровнем, который необходим для выполнения целевых задач, если связанные с этим проблемы безопасности могут быть решены.)
- Поручения, по предположению, ограничены рамками — они могут быть выполнены в некоторой ограниченной области пространства-времени при помощи некоторого ограниченного объема усилий, после чего работа прекращается. (Чтобы было такое преимущество, состояние выполненности задачи не должно без конца подниматься все выше и выше в предпочтениях по мере затраты на него дополнительных усилий.)
- Если предположить, что пользователи могут наметить для ОИИ такие цели, которые были бы ценными и имели решающее значение, то решить проблему идентификации для описания того, что представляет собой безопасное выполнение поручения, может оказаться проще, чем дать ОИИ полное описание нормативности в целом. То есть задача передачи ОИИ адекватного описания того, что значит «излечить рак» (без убийства пациентов и прочих побочных эффектов), хотя и сложна, но может быть проще, чем адекватное описание всех нормативных ценностей. ОИИ-для-поручений относятся к узкой стороне в противопоставлении амбициозного и узкого обучения ценностям.
В сравнении с задачей создания суверена, попытка создать ОИИ-для-поручений может снизить уровень проблемы с «невозможно сложной» до «безумно сложной», сохраняя при этом достаточную мощность ИИ для выполнения действий решающего значения.
Очевидный недостаток ОИИ-для-поручений — это моральная угроза: он может искушать пользователей так, как не искушал бы суверен. Суверен несет моральную угрозу главным образом на этапе разработки, когда программисты и пользователи, возможно, еще не обладают особой относительной властью. Тогда как ОИИ-для-поручений несет в себе постоянную моральную угрозу, пока используется.
Элиезер Юдковский предположил, что люди сталкиваются со многими важными проблемами в согласовании ценностей только тогда, когда они размышляют о суверенах, но в то же время суверены могут быть невероятно сложными на практике. Он считает, что людям сначала лучше думать о суверенах и перечислять все связанные с ними проблемы, прежде чем переходить к ОИИ-для-поручений. Причина в том, что размышления об ОИИ-для-поручений могут окончиться преждевременно, в то время как размышления о суверенах с большей вероятностью приведут к формулированию полного списка проблем, которые затем можно было бы сравнить с теми или иными идеями ОИИ-для-поручений, чтобы увидеть, стали бы эти проблемы проще.
Есть три различных подтипа ОИИ-для-поручений:
- Оракулы — ИИ, которые предназначены только для того, чтобы отвечать на вопросы — возможно, из некоторого ограниченного набора вопросов.
- ИИ с известными алгоритмами, которые не допускают самомодификации или допускают лишь очень слабую — так, чтобы их алгоритмы и представления в основном были известными и неизменными.
- Джинны-бихевиористы, которые не предназначены для моделирования человеческих умов или моделируют их только очень ограниченными способами, но при этом обладают большим пониманием устройства материи (например, потенциально способностью изобретать и применять нанотехнологии).
Подзадачи
Задача создания безопасного джинна затрагивает множество подтем, таких как малое воздействие, умеренная оптимизация и консерватизм, а также многочисленные стандартные проблемы безопасности ОИИ, такие как рефлексивная устойчивость и безопасная идентификация подразумеваемых целей.
Некоторые дополнительные проблемы, помимо тех, которые описаны на странице выше:
- Функции полезности оракулов (такие, чтобы оракул не захотел покидать свою коробку или оптимизировать своих программистов)
- Выразимая оптимизация (противоположность когнитивной невместимости)
- Онлайн-проверяемость
- Объяснять что-либо программистам, не помещая при этом программистов в argmax того, насколько хорошо он им что-то “объясняет”.
- Прозрачность
- “Делай то, что я имею в виду”