Arbital на русском

Манипуляция пользователем

Если ОИИ хочет чего-то, достижение чего включает шаги взаимодействия с его программистами или пользователями, то по умолчанию ОИИ будет иметь инструментальный стимул к оптимизации программистов/пользователей в ходе достижения своей цели. Если ОИИ хочет самосовершенствоваться, то по умолчанию, если этого не предотвратить, он также будет хотеть, чтобы программисты не мешали его самосовершенствованию. Если согласование ОИИ-для-поручений доведено до момента, когда он исполняет инструкции пользователя, то по умолчанию, если этого не предотвратить, он будет прогнозировать более высокую успешность в тех обстоятельствах, при которых он получал бы более простые инструкции от пользователя.


Категории: Corrigibility
Оригинал: User manipulation (читать на GreaterWrong)    Перевод: К. Кирдан (добавлены ссылки)

Материалы распространяются по лицензии CC BY 3.0