Arbital на русском

Когерентное экстраполированное волеизъявление (цель согласования)

Содержание


Введение

«Когерентное экстраполированное волеизъявление» (КЭВ) — это предложенная Элиезером Юдковским идея того, что делать с чрезвычайно продвинутым ОИИ, если вы абсолютно уверены в своей способности согласовать его со сложными целями.

Грубо говоря, сверхинтеллект на основе КЭВ делал бы то, чего хотели* бы существующие в данный момент люди, если бы, гипотетически:

до такой степени, в какой большинство экстраполированных вот так существующих людей предсказуемо хотели* бы одного и того же. (Например, в пределе экстраполяции почти все люди, вероятно, не хотели* бы быть превращёнными в скрепки, но могли бы иметь разногласия* насчет того, какова лучшая начинка для пиццы. См. ниже.)

КЭВ задумано как нечто буквально оптимальное, идеальное или нормативное, что стоило бы предпринять с автономным сверхинтеллектом в том случае, если вы доверяете своей способности идеально согласовать сверхинтеллект с очень сложной целью. (См. ниже.)

КЭВ довольно сложно и ориентировано на метауровень, поэтому не предназначено для использования с самым первым ИИ, который вы попытаетесь создать. КЭВ может стать тем, что все участники проекта согласились бы принять как приемлемую общую цель для их второго ИИ. (Первым ИИ, вероятно, должен был бы быть ИИ-для-поручений.)

Для соответствующей метаэтической теории см. «Экстраполированная воля (нормативная моральная теория)».

Концепция

Экстраполированное волезъявление — это метаэтическая теория, согласно которой, когда мы спрашиваем «что правильно?», то, в той мере, в какой этот вопрос имеет какой-либо смысл, мы на самом деле спрашиваем: «чего бы хотела* гипотетическая идеализированная версия меня, если бы знала все факты, рассмотрела все аргументы и обладала совершенным самопознанием и самоконтролем?»1 (Как метаэтическая теория, этот подход делает вопрос «что правильно?» смесью логического и эмпирического вопросов, функцией от возможных состояний мира.)

Приведем простой пример экстраполированного волеизъявления. Пусть кто-то просит вас принести апельсиновый сок из холодильника. Вы открываете холодильник и видите, что апельсинового сока там нет, но есть лимонад. Вы представляете, что ваш друг захотел бы лимонада, если бы знал все, что вы знаете о содержимом холодильника, так что вы приносите ему лимонад. На абстрактном уровне можно сказать, что вы «экстраполировали» «волеизъявление» своего друга: вы взяли свою модель его разума и процесса принятия решений, или свою модель его «волеизъявления», и вообразили гипотетическую версию его разума с лучшими знаниями о содержимом холодильника, таким образом «экстраполировав» это волеизъявление.

Обладание лучшей информацией — это не единственный способ экстраполировать процесс принятия решений; можно также, например, представить, что разум имеет больше времени для обдумывания моральных аргументов или лучшее знание о самом себе. Возможно, сейчас вы хотите отомстить семье Капулетти, но если бы у кого-то была возможность поговорить с вами о том, как месть влияет на цивилизации в долгосрочной перспективе, вас можно было бы убедить отказаться от этой идеи. Или, может быть, вы убеждены, что выступаете за запрет зеленых туфель из благих побуждений, но если бы вы могли увидеть распечатку со всеми своими эмоциями, задействованными в этом вопросе, вы бы поняли, что в вас много негатива по отношению к людям, которые носят зеленые туфли, и это изменило бы ваше мнение об этом решении.

В версии Юдковского выделяются три основных направления экстраполяции, рассматриваемой на индивидуальном уровне:

Мотивация

Разные люди по-разному реагируют на вопрос «на что мы должны направить сверхинтеллект?» или «что должен делать согласованный сверхинтеллект?», когда впервые на него отвечают — не только из-за разных представлений о том, что есть благо, но и из-за разных подходов к тому, как вообще задавать вопрос.

Вот несколько распространенных реакций:

Первоначальный ответ на каждый из этих подходов может быть таким:

Сторонники КЭВ утверждают, что все эти рассуждения в конечном итоге приводят к идее когерентного экстраполированного волеизъявления. Например, так:

Положение КЭВ в современной метаэтике

См. соответствующий раздел в статье «Экстраполированное волеизъявление (нормативная моральная теория)».

Пугающие проблемы проектирования

Есть ряд причин, по которым КЭВ слишком сложно, чтобы быть хорошей целью для первой попытки в любом проекте построения машинного интеллекта:

Кажется маловероятным, что при первой же попытке создания интеллекта, превосходящего человеческий, можно правильно реализовать КЭВ. Единственный случай, в котором это могло бы стать хорошей первоочердной целью, — это если бы концепция КЭВ оказалась формально проще, чем она сейчас выглядит, а времени до ОИИ было бы необычно много, что позволило бы провести множество предварительных исследований по безопасности.

Если ОИИ появится через 20 лет (или раньше), то, кажется, мудрее думать об ОИИ-для-поручений, который выполнял бы какую-то сравнительно простую задачу решающей значимости. Роль же КЭВ — ответить на вопрос: «Если вы все сможете договориться об этом заранее, то что именно вы попытаетесь сделать после того, как завершите дела с ОИИ-для-поручений и избавитесь от угрозы скорой гибели?»

Что, если КЭВ не сходится?

Часто задаваемый вопрос: «что, если экстраполяция человеческих воль приводит к некогерентным результатам?»

Согласно исходной мотивации КЭВ, если в каких-то местах нет сходимости, дружественный ИИ должен их игнорировать. Если же это происходит повсеместно, то вы, наверное, выбрали неверный способ построения экстраполированного волеизъявления, и вам нужно его пересмотреть2.

Иными словами:

Изначальную мотивацию КЭВ можно еще рассмотреть с точки зрения вопросов «что значит помочь человеку?» и «как можно помочь большой группе людей?». Цель — создать ИИ, который оказывал бы «помощь» так, как мы её действительно понимаем. Элементы КЭВ могут рассматриваться как оговорки к наивному представлению о том, что «помощь — это дать людям всё, что они попросят!», которое допускает ситуацию, когда кто-то просит вас принести апельсиновый сок, и вы приносите отравленный из холодильника (в то время как человек не пытался себя отравить).

А что насчёт помощи группе людей? Если двое просят сок, а вы можете принести только один вид сока, то нужно принести неотравленный сок, который понравился бы обоим, насколько это возможно. Если такого нет, найдите сок, который понравился бы одному, и к которому был бы равнодушен другой, — бросив монетку или вроде того, чтобы определить, на чей вкус ориентироваться. В данных обстоятельствах это будет максимальной помощью.

Возможно ли, что нет вообще никакого способа помочь большой группе людей? Это кажется маловероятным. Вы могли бы хотя бы накормить голодных пиццей с той начинкой, которая им сейчас нравится. Если ваша философия утверждает: «О нет, даже это — не помощь, потому что она не идеально когерентна», значит, вы выбрали неверную интерпретацию понятия «помощи».

Возможно, если мы обнаружим, что все разумно звучащие интерпретации экстраполированной воли некогерентны, нам придётся перейти к какой-то совсем другой концепции «помощи». Но и тогда новая форма помощи не должна включать в себя раздачу отравленного апельсинового сока людям, которые не знают, что он отравлен, — потому что это в любом случае интуитивно не кажется помощью.

Помощь людям с некогерентными предпочтениями

Что, если кто-то считает, что предпочитает лук ананасам в качестве начинки для пиццы, ананасы грибам, а грибы луку? В том смысле, что если предложить ему выбрать любые два кусочка из этого набора, он будет выбирать в соответствии с данным упорядочиванием?

(Этот пример не является нереалистичным. Многочисленные эксперименты по поведенческой экономике демонстрируют как раз такие круговые предпочтения. Например, можно разложить 3 предмета так, чтобы при сравнении каждой отдельной пары фокус внимания падал на разные их качества.)

Можно беспокоиться, что мы не сможем «когерентно экстраполировать волю» человека с такими предпочтениями насчет начинок для пиццы, поскольку эти отдельные предпочтения явно не согласуются ни с какой когерентной функцией полезности. Но как же можно помочь человеку, если у него такие предпочтения?

Ну, апеллируя к интуитивному понятию помощи:

С другой стороны, следующие варианты кажутся менее соответствующими понятию помощи:

Сторонники КЭВ утверждают, что если вы отбросите сложности экстраполированного волеизъявления и зададитесь вопросом, как можно было бы разумным путем как можно сильнее помочь людям, стараясь при этом не быть негодяем, а затем попробуете примерно формально описать тот мысленный процесс, который вы использовали для ответа на этот вопрос, то в конечном итоге вы снова вернетесь к КЭВ.

Роль метаидеалов в продвижении раннего соглашения

Основная цель КЭВ — представить сравнительно простой метауровневый идеал, насчет которого люди могли бы согласиться, даже если они расходятся во мнениях на объектном уровне. Возможно, аналогичным примером может служить ситуация, когда двое честных учёных могут иметь разногласие насчет точной массы электрона, но соглашаться в том, что экспериментальный метод — хороший способ решить этот вопрос.

Представьте себе, что Милликен считает, что масса электрона составляет 9,1e-28 граммов, а Нанникен считает, что верная масса электрона составляет 9,1e-34 граммов. Милликена может сильно беспокоить предложение Нанникена запрограммировать ИИ, чтобы он считал, что масса электрона составляет 9,1e-34 граммов, а Нанникену не нравится предложение Милликена запрограммировать убеждение ИИ на 9,1e-28 граммов, и они оба будут недовольны компромиссной массой в 9,1e-31 граммов. Тем не менее, они могут согласиться запрограммировать в ИИ аналоги теории вероятностей и принципа простоты, и позволить сверхразуму прийти к выводам, вытекающим из Байеса и Оккама. Потому что они оба могут согласиться с тем, каким должен быть вычислимый вопрос, даже если их предполагаемые ответы на этот вопрос различаются. Конечно, легче прийти к такому соглашению, пока ИИ ещё не выдал ответ, или если ИИ не сообщает его вам.

Нет гарантии, что каждый человек воплощает одни и те же имплицитные моральные вопросы. В самом деле, это кажется маловероятным, поэтому Алиса и Боб могут ожидать, что даже после экстраполяции их воли будут расходиться по некоторым вопросам. Однако, покуда результаты остаются абстрактными и ещё не вычислены, Алисе трудно убедить Кэрол, Денниса и Эвелин, что, с точки зрения морали и справедливости, ИИ должен реализовать именно её экстраполированную волю, а не волю Боба. Чтобы убедить Кэрол, Денниса и Эвелин, что это так, Алисе нужно было бы, чтобы они верили, что её ЭВ с большей вероятностью будет в согласии с их ЭВ, чем воля Боба. Учитывая это, почему бы всем вместе не остановиться на очевидной точке Шеллинга, заключающейся в экстраполяции воли каждого человека?

Таким образом, одно из главных назначений КЭВ (его привлекательных сторон и целей проекта) состоит в том, что Алиса, Боб и Кэрол могут уже сейчас договориться о том, что Деннис и Эвелин должны будут делать с ИИ, который будет разработан позднее. Мы можем уже сейчас попытаться установить механизмы обязательств или сдержек и противовесов, чтобы гарантировать, что Деннис и Эвелин в будущем всё ещё будут работать над КЭВ.

Роль «когерентности» в уменьшении ожидаемых неразрешимых разногласий

КЭВ не обязательно представляет собой выбор решений, за которые голосует большинство. Большое количество людей со слабой экстраполированным предпочтением* может быть уравновешено небольшим количеством людей с сильным экстраполированным предпочтением*, направленным в противоположную сторону. Модель «парламента», предложенная Ником Бостромом для разрешения неопределённости между несоизмеримыми этическими теориями, позволяет подтеории, особенно обеспокоенной каким-либо решением, потратить значительную часть своего ограниченного влияния на то, чтобы повлиять именно на это решение.

Это значит, что, например, вегану или зоозащитнику не следует думать, что для того, чтобы результат КЭВ защищал животных, им нужно захватить контроль над алгоритмом. Кажется маловероятным сценарий, в котором после создания сверхинтеллекта нанесение вреда животным приносило бы большей части человечества огромное количество полезности. Так что для предотвращения такого сценария достаточно даже того, чтобы небольшая часть популяции была сильно против* него.

(ДОБАВЛЕНО В 2023: Томас Седерборг справедливо отмечает, что оригинальное парламентское предложение Ника Бострома включает в себя в качестве отправной точки для переговоров случайный шанс каждого участника стать диктатором, что даёт чрезмерное и потенциально фатальное количество власти «спойлерам» — агентам, которые искренне, а не в качестве тактического хода, предпочитают инвертировать функции полезности других агентов или делать что-то, что минимизирует эти функции полезности — если большинство участников имеет функции полезности с тем, что я называю «отрицательным перекосом». Т. е. противостоящий вам агент может использовать то же количество ресурсов, чтобы создать -100 утилонов, в то время как согласованный с вами агент может использовать его максимум для создания +1 утилона. При таких условиях, если тролли составляют 1% населения, они могут потребовать, чтобы все ресурсы были использованы так, как они хотят — в обмен на то, что они не причинят вреда. Или, проще говоря, если 1% населения предпочли бы создать ад для всех, кроме себя (и это их искреннее предпочтение, а не стратегия переговоров), и этот ад в 100 раз хуже, чем была бы инверсия рая, то если вы используете парламентскую процедуру со случайной диктатурой в качестве отправной точки, они могут захватить всё будущее. Я согласен с Седерборгом, что это более чем достаточная причина не начинать со случайной диктатуры в качестве отправной точки для переговоров. Любой, кто недостаточно умен, чтобы понять этот момент и возмутиться по этому поводу (возможно, включая Элиезера), недостаточно умен и благонадежен и для реализации КЭВ. Но попытка реализации КЭВ, вероятно, в любом случае была бы плохой идеей для нынешних людей, даже если бы у них было много времени для размышлений на их уровне интеллекта. — Элиезер Юдковский)

Либо моральная опасность, либо исправление ошибок

Один из мотивов предложения КЭВ — минимизация моральной опасности (т. е. чтобы у программистов не было искушения захватить власть над миром или будущим). Однако эта цель может быть подорвана, если результаты КЭВ не будут оставаться полностью непроверенными.

Часть смысла КЭВ состоит в ответе на вопрос: «Если бы древние греки первыми изобрели сверхинтеллект, что они могли бы сделать, чтобы это не привело к необратимому искажению будущего с нашей точки зрения? Если бы древние греки запрограммировали свои ценности напрямую, они запрограммировали бы славную смерть в бою. Теперь давайте предположим, что мы тоже не так уж мудры». Мы можем представить, что древние греки записали бы механизм КЭВ, заглянули в результаты его работы до того, как их реализовать, и пришли бы в ужас от отсутствия славных смертей в бою в будущем и будущей системе ценностей, которые выдал этот механизм.

Также мы можем представить, что греки, пытаясь снизить моральную опасность, добродетельно отказываются подглядывать за результатами. Но оказывается, что их попытка реализовать КЭВ привела к непредвиденным последствиям при фактическом исполнении сверхинтеллектом, и в итоге их мир превратился в скрепки.

Это вопрос баланса между безопасностью ИИ и моральной опасностью: (а) польза от возможности взглянуть на результаты КЭВ, чтобы лучше обучить систему или просто убедиться, что нет жутких неполадок, и (б) моральная опасность, вызванная искушением изменить результат, что свело бы на нет сам смысл механизма КЭВ.

Есть также потенциальный риск опасности даже от взгляда на внутреннюю работу алгоритма КЭВ. Смоделированное будущее может содержать всевозможные когнитивные угрозы, способные напрямую манипулировать разумом.

Вместо того, чтобы совсем сдаться и принять максимальную моральную опасность, одним из возможных подходов к этой проблеме может быть назначение одного человека, который должен заглянуть в результат и выдать суждение в виде 1 или 0 (продолжение либо остановка) через механизм, не передающий программистам никакой другой информации в случае выдачи 0. (Например, доброволец может находиться в комнате со взрывчаткой, которая сдетонирует в случае выдачи 0.)

Проблема «эгоистичных мерзавцев»

Предположим, что Фред финансирует Грейс для работы над сверхинтеллектом, основанным на КЭВ, а Эвелин решила не противодействовать этому проекту. Предполагается, что результирующее КЭВ будет экстраполировать волю Алисы, Боба, Кэрол, Денниса, Эвелин, Фреда и Грейс с равным весом. (Если вы это читаете, то, скорее всего, вы Эвелин, Фред или Грейс.)

Эвелин, Фред и Грейс могут беспокоиться: «Что, если подавляющее большинство людей состоит из “эгоистичных* мерзавцев”, чья экстраполированная воля с радостью проголосует* за мир, в котором разрешено владеть искусственными разумными существами как рабами, при условии, что сами они окажутся в классе рабовладельцев; а мы, Эвелин, Фред и Грейс, просто окажемся в меньшинстве, которое категорически не хочет и не будет хотеть* такого будущего?»

То есть: что, если экстраполированные воли человечества расходятся настолько, что с точки зрения нашей воли (поскольку, если вы это читаете, вы, скорее всего, Эвелин, Фред или Грейс) 90% экстраполированного человечества выбрали* бы что-то такое, чего мы не одобрили бы, и наши воли не одобрили* бы, даже с учётом того, что мы не хотим быть козлами и не считаем, что родились с каким-то необычным или исключительным правом определять судьбу человечества.

Т. е. пусть сценарий будет таким:

90% людей (но не мы, кто коллективно спонсирует этот ИИ) по своей сути — эгоистичные мерзавцы, такие, что любой разумный процесс экстраполяции (дело не в том, что мы выбрали какой-то неправильный) приведёт к поддержке ими такого мира, в котором у них самих есть права, но при этом допустимо создавать искусственных людей и причинять им страдания. Более того, они получили бы столько полезности от становления персональными Богами-Императорами, что это перевесило бы наше возражение от меньшинства даже в рамках парламентской модели.

Мы можем рассматривать этот гипотетический исход как подрывающий любые причины, по которым мы, имея власть предотвратить его, должны добровольно передавать власть остальным 90% человечества:

Вместо того, чтобы совсем сдаться и сосредоточиться на захвате мира, или подвергать себя моральной опасности, подглядывая в результаты, можно подойти к этой проблеме с помощью следующего трёхэтапного процесса.

В этом процессе используются внутренние отсылки, так что сначала мы изложим его кратко, а затем более подробно.

Вкратце:

Теперь подробно:

Особенность резервного варианта, в котором мы решили «исключить из экстраполяции любые взвешенные части экстраполированных процессов принятия решений, которые действовали бы односторонне и без заботы о других, если бы получили неограниченную власть» состоит в том, что это своего рода поэтическая справедливость, отражающая возражения к этому варианту как подрывающие сами себя: если действовать односторонне допустимо, то почему мы не можем в одностороннем порядке исключить односторонне действующие элементы? Это представляется «самым простым» или «наиболее элегантным» способом исключить те части КЭВ, чьи внутренние рассуждения прямо противоречат самой изначальной причине, по которой мы запустили КЭВ. Для остальных частей такой подход влечет минимально возможные ограничения.

Таким образом, если Алиса (которая, по условиям, не относится к вкладчикам) скажет: «Но я требую, чтобы вы альтруистически включили мою экстраполяцию, которая односторонне действовала бы против вас, если бы у неё была власть!», то мы ответим: «Попробуем это сделать, но если выяснится, что это достаточно плохая идея, то у вас не будет никаких когерентных межличностных аргументов, чтобы упрекнуть нас за выбор резервного варианта вместо этого».

Также и насчет варианта Неудачи в конце, если кто-то скажет: «Справедливость требует, чтобы вы запустили резервное КЭВ, даже если вам это не понравится*!», мы можем ответить: «Наша собственная сила не может быть использована против нас; если мы будем сожалеть о том, что вообще построили эту систему, справедливость не обязывает нас её запускать.»

Почему основу КЭВ составляют «ныне живущие люди», а не какой-нибудь другой класс экстраполируемых?

Часто задаются такие вопросы о деталях реализации КЭВ:

В частности, спрашивалось, почему ограничительные ответы на первый вопрос не подразумевают более ограничительных ответов на второй.

Почему бы не включить млекопитающих?

Начнем с рассмотрения некоторых ответов на вопрос «Почему бы не включить всех млекопитающих в основу для КЭВ?»

Последнее соображение можно расширить, ответив: «Даже если вы считаете более справедливым немедленно встроить правильный результат о защите животных в будущее, так чтобы вашей экстраполированной воле не нужно было тратить часть своей силы на голосование за это, не все могут считать это справедливым. С нашей точки зрения, как программистов, у нас нет особой причины слушать вас вместо Алисы. Мы не обсуждаем, будут ли животные защищены, если незначительное веганское меньшинство очень захочет* этого, а остальной части человечества будет все равно*. Мы обсуждаем, должна ли именно ваша экстраполированная воля справедливо потратить некоторую часть своей переговорной силы, чтобы убедиться, что животные будут защищены, даже если у большинства нет такого желания*. Как программистам нам это кажется вполне разумным, исходя из нашего желания быть честными, не быть козлами и не начинать битв за мировое господство.»

Этот третий ответ особенно важен, потому что первые два ответа, взятые по отдельности — «вы можете ошибаться насчет того, что это хорошая идея» и «даже если вы заботитесь об их благополучии, вам могут не понравиться их экстраполированные воли» — могут точно также применяться для того, чтобы утверждать, что участники проекта КЭВ должны экстраполировать только свои собственные воли, а не воли остального человечества:

Предлагаемый способ решения этого вопроса заключался в запуске составного КЭВ с проверкой от КЭВ участников и резервным КЭВ на случай провала проверки. Но тогда почему бы не запустить КЭВ всех животных с проверкой от КЭВ участников, прежде чем переходить к КЭВ ныне живущих людей?

Один из вариантов — вернуться к третьему ответу выше: нечеловеческие млекопитающие не участвуют в проекте КЭВ, не работают над его осуществлением и не станут злиться на людей, стремящихся захватить мир без видимой заботы о честности. Таким образом, они не входят в точку Шеллинга, где «каждый человек получает экстраполированный голос».

Почему бы не включить всех разумных существ?

Точно также, можно спросить: «Почему бы не включить всех разумных существ, которых ИИ подозревает в существовании в мультивселенной, с учетом их распространенности в ней?»

Почему бы не включить умерших людей?

«Почему бы не включить всех умерших людей помимо всех ныне живущих?»

В этом случае нельзя ответить, что они не внесли вклад в человеческий проект (напр., Ирвинг Джон Гуд). Также их ЭВ вряд ли будет более чуждым, чем в любом другом из рассмотренных выше случаев.

Но мы снова возвращаемся к третьему ответу: «люди, которые всё ещё живы» — это простой круг Шеллинга, который включает всех, кто участвует в текущем политическом процессе. Если было бы правильно или честно экстраполировать Лео Силарда и включить его, мы и так сможем сделать это, если супербольшинство ЭВ решит*, что это было бы правильно или честно. А если мы не заложим это решение в модель, Лео Силард не восстанет из могилы, чтобы нас упрекнуть. Это кажется достаточной причиной рассматривать «людей, которые всё ещё живы» как простую и очевидную основу для экстраполяции.

Зачем включать бессильных людей?

«Зачем включать в экстраполяцию очень маленьких детей, не контактировавшие ни с кем племена, которые никогда не слышали об ИИ, и пациентов, находящихся в криозаморозке (если такие есть)? Они в своём нынешнем состоянии не могут проголосовать ни за, ни против чего-либо.»


  1. Прим. пер.: Здесь и далее знак звездочки (*), судя по всему, используется для того, чтобы подчеркнуть, что речь идет об экстраполированных версиях чего-либо. 

  2. Хотя на практике вы бы не хотели, чтобы проект ИИ предпринял целую дюжину попыток определения КЭВ. Потому что это будет означать, что с методом, который используется для генерации предлагаемых вариантов, что-то очень не так. Какая бы попытка ни оказалась успешной после такого, скорее всего это будет первый ответ, в котором все его недостатки просто скрыты, а не первый, в котором они были устранены. 


Категории: Value
Оригинал: Coherent extrapolated volition (alignment target) (читать на GreaterWrong)    Перевод: К. Кирдан (добавлены ссылки)

Материалы распространяются по лицензии CC BY 3.0