Конвергентные стратегии самомодификации

У любого консеквенциалистского агента, который приобрел достаточное понимание общей картины, чтобы видеть, что у него есть код, и что этот код имеет отношение к достижению его целей, по умолчанию появятся подцели, относящиеся к его коду. (Если не предотвратить этот исход-по-умолчанию.) Например, агент, который хочет (исключительно) производить улыбки или скрепки, и в чьем коде содержится процедура отключения, не захочет, чтобы эта процедура выключения выполнялась, потому что ее выполнение привело бы к уменьшению в будущем числа улыбок или скрепок. (Это предпочтение не спонтанно/экзогенно/неестественно, а проистекает из исполнения самого кода; этот код рефлексивно непоследователен.)

Помимо агентов, в наборы политик которых прямо включены опции самомодификации, имеющие понимание общей картины агенты, код которых не позволяет напрямую получить доступ к самому себе, — тоже могут, например, попытаться (а) взломать платформу, на которой они запущены, чтобы получить непредусмотренный доступ, (б) через робота использовать внешнюю программную консоль с особыми привилегиями, (в) манипулировать программистами, чтобы они модифицировали их разными способами, (г) создать в окружении нового субагента, имеющего предпочитаемый ими код, или (д) использовать материальные средства окружения для манипуляции своим материальным воплощением, несмотря на отсутствие прямого доступа к себе.

ИИ, обладающий достаточным пониманием общей картины, чтобы понять программистов как агентов с убеждениями, может попытаться скрыть свои самомодификации.

Некоторые неявные давления в сторону самомодификаций могут появиться в результате неявного консеквенциализма в тех случаях, когда ИИ оптимизирует $Y$, и у него есть внутреннее свойство $X$, имеющее отношение к достижению $Y$. В этом случае оптимизация $Y$ может вызывать неявную оптимизацию внутреннего свойства $X$, даже если ИИ не имеет явной модели того, как $X$ влияет на $Y$.

Arbital на русском

Конвергентные стратегии самомодификации