Arbital на русском

Функция полезности

Функция полезности — это абстрактный способ описания относительной степени, в которой агент предпочитает или не предпочитает те или иные исходы, путем присвоения каждому исходу абстрактной оценки — полезности.

Например, пусть функция полезности агента:

Это говорит нам о том, что если предложить агенту такие варианты выбора, как…

…то агент предпочтет B вместо A и C вместо B, поскольку соответствующие ожидаемые полезности равны:

Обратите внимание, что мы могли бы умножить все вышеприведенные значения полезности на 2, или на 1⁄2, или прибавить ко всем значениям 5, но это не повлияло бы на поведение агента. Приведенная выше функция полезности на деле говорит нам, что:

«Длина интервала от ванильного мороженого до шоколадного мороженого составляет 60% от длины интервала от отсутствия мороженого до ванильного мороженого, и знак обоих интервалов положительный».

Эти относительные интервалы не изменяются при положительных аффинных преобразованиях (добавлении действительного числа или умножении на положительное действительное число), поэтому функции полезности эквивалентны с точностью до положительного аффинного преобразования.

Путаница, которой нужно избегать

Агент стремится к шоколадному мороженому не для того, чтобы получить какую-ту отдельную желаемую штуку, называемую «полезностью». Вместо этого понятие «полезности» работает как абстрактная мера того, насколько сильно агент стремится к шоколадному мороженому по сравнению с другими вещами, которые его интересуют.

Рассмотрение того, что функции полезности остаются неизменными при умножении на 2, помогает подчеркнуть следующие факты:

О некоторых других возможных заблуждениях:

То есть последовательные функции полезности должны быть последовательны в том, как они оценивают конечные итоги во всей их полноте, а не в том, как они оценивают разные дополнительно добавляемые единицы мороженого.

Точно так же нет правила, по которому прибыли в размере 200 000 долларов должно приписываться вдвое больше полезности, чем прибыли в 100 000 долларов — на деле в реальной жизни это обычно не так. Отдача от денег для людей уменьшается: чем вы богаче, тем меньше значит для вас каждый дополнительный доллар.

Это, в свою очередь, значит, что ожидаемая прибыль от приносящей деньги игры обычно будет отличаться от ее ожидаемой полезности.

К примеру, большинство людей предпочли бы (A) 1 000 000 долларов точно, а не (B) 50%-ную вероятность получить 2 000 010 долларов и 50%-ную вероятность ничего не получить; поскольку дополнительные 1 000 010 долларов будут иметь для них существенно меньшую дополнительную ценность по сравнению с первыми 1 000 000 долларами. Например, полезности 0 долларов, 1 000 000 долларов и 2 000 010 долларов могут составлять примерно 0, 1 и 1.2.

Таким образом, игра A имеет более высокую ожидаемую полезность, чем игра B, даже несмотря на то, что игра B приводит к более высокому ожидаемому выигрышу в долларах (больше на 5 долларов). Нет полезного понятия, которое описывалось бы как «полезность ожидаемой прибыли»; то, что нам нужно, — это «ожидаемая полезность прибыли».

И наоборот, когда мы говорим о полезности, мы говорим о единице измерения убывающей отдачи. Согласно определению полезности, прибыль, которой вы назначаете +10 полезности (по сравнению с какой-то базовой альтернативой), — это то, чего вы хотите в два раза сильнее, чем прибыль, которой вы назначили +5 полезности. Нет никакого смысла представлять себе убывающую отдачу от полезности, как если бы полезность была отдельным благом, а не единицей измерения отдачи от благ.

Если вы утверждаете, что приписываете выигрышу X ожидаемую полезность +1 000 000, то вы должны хотеть получить его в миллион раз сильнее, чем некоторый выигрыш Y, которому вы назначили ожидаемую полезность +1. Вы также утверждаете этим, что обменяли бы гарантию получения Y на шанс 1 из 999 999 получить X. Если это не так, то вы либо не являетесь последовательным агентом, оптимизирующим ожидаемую полезность (что вполне вероятно), либо на самом деле цените X не в миллион раз сильнее, чем Y (что тоже вероятно). Если обычные объемы прибыли находятся в пределах 1 единицы полезности, то мысль о прибыли в +1 000 000 полезности гораздо более поразительна, чем просто о прибыли размером в миллион долларов.

Мотивация идеи полезности

Различные теоремы о когерентности показывают, что если ваше поведение не может рассматриваться как согласованное с некоторой непротиворечивой функцией полезности, заданной на исходах, то вы, должно быть, используете доминируемую стратегию. И наоборот, если вы не используете доминируемую стратегию, то можно интерпретировать ваше поведение так, как будто у вас есть последовательная функция полезности. См. этот урок.


Категории: Формализм ожидаемой полезности
Оригинал: Utility function (читать на GreaterWrong)    Перевод: К. Кирдан (добавлены ссылки, поправлены единицы измерения)

Материалы распространяются по лицензии CC BY 3.0