Arbital на русском

Консеквенциалистские предпочтения по умолчанию рефлексивно устойчивы

Предположим, что Ганди не хочет, чтобы людей убивали. Представьте, что вы предлагаете Ганди таблетку, которая заставит его захотеть убивать людей. Если Ганди знает, что именно делает эта таблетка, он откажется от нее, потому что ожидает, что в результате приема такой таблетки будущий-Ганди захочет убивать людей, а затем будет их убивать, и тогда будет убито больше людей, что Ганди считает злом. По такой же логике достаточно разумный максимизатор скрепок — агент, который всегда выводит действие, которое, как он ожидает, приведет к наибольшему количеству скрепок — по умолчанию не будет выполнять никаких модифицирующих его действий, которые убирали бы его желание производить скрепки. Потому что в этом случае будущий-Скрепочник производил бы меньше скрепок, и в итоге скрепок в мире было бы меньше, так что нынешний-Скрепочник не оценивает такую самомодификацию как действие, которое произвело бы наибольшее ожидаемое количество будущих скрепок.

Другой способ выразить эту идею состоит в том, что защита репрезентации функции полезности и создание агентов только с такими же функциями полезности — это конвергентные инструментальные стратегии для консеквенциалистских агентов, которые понимают общую картину связи между их кодом и последствиями в реальном мире.

Хотя инструментальный стимул отдавать предпочтение устойчивым предпочтениям, по-видимому, должен следовать из консеквенциализма вкупе с пониманием общей картины, менее продвинутые консеквенциалисты могут быть неспособны самомодифицироваться так, чтобы сохранять понимание — они могут не понимать, какие самомодификации или конструируемые ими преемники к каким последствиям приведут. Мы могли бы рассматривать это как случай того, что «агент не имеет в своем субъективном пространстве политик средств самосовершенствования, сохраняющих предпочтения, но хотел бы иметь такой вариант, если бы он был доступен».

То есть:


Категории: Convergent instrumental strategiesРефлексивная устойчивость
Оригинал: Consequentialist preferences are reflectively stable by default (читать на GreaterWrong)    Перевод: К. Кирдан (добавлены ссылки)

Материалы распространяются по лицензии CC BY 3.0