Автономный ОИИ | Arbital на русском

Автономный или самоуправляющийся продвинутый агент — это машинный интеллект, который действует в реальном мире в соответствии со своими предпочтениями без дальнейшего вмешательства или управления со стороны пользователя. В приведенной Бостромом типологии продвинутых агентов это «суверен», и он отличается от «джинна» и «оракула». («Суверен» тут означает «самостоятельный», не путайте с идеей бостромовского синглтона или какими-либо видами управления обществом.)

Обычно, когда мы говорим «суверенный» или «самоуправляющийся», мы имеем в виду ИИ, который предполагается согласованным и действует автономно по замыслу создателей. Неспособность решить задачу согласования при создании ИИ, вероятно, по умолчанию будет значить, что он самоуправляющийся.

Попытка создать автономный Дружественный ИИ предполагает, что в любом конфликте между ИИ и программистами мы будем больше доверять ИИ, и мы согласны с устранением всех его ограничений и кнопок отключения, за исключением тех, которые он возьмет на себя добровольно.

Успешно согласованный автономный ОИИ будет нести наименьшую моральную угрозу по сравнению с другими сценариями, поскольку он откажется от направления к какой-либо фиксированной системе предпочтений или цели, которую программисты больше не могли бы изменить. Тем не менее, выглядит довольно трудной задачей достичь очень очень очень высокой уверенности, что мы не просто сделали все правильно, но и знаем, что сделали все правильно. Поэтому, возможно, нам не следует пытаться с первой же попытки создать ИИ именно этого типа, а следует вместо этого сначала нацелиться на создание ОИИ-для-поручений или чего-то еще, предполагающего постоянное управление со стороны пользователя.

Автономный сверхинтеллект был бы самым трудным для согласования классом ОИИ, и требовал бы полного согласования. В качестве цели в согласовании автономного сверинтеллекта предложено когерентное экстраполированное воление. Но, опять же, вероятно это не то, что нам следует пытаться сделать с первой же попытки.