Функция полезности — это абстрактный способ описания относительной степени, в которой агент предпочитает или не предпочитает те или иные исходы, путем присвоения каждому исходу абстрактной оценки — полезности.
Например, пусть функция полезности агента:
- Присваивает полезность 5 употреблению ванильного мороженого.
- Присваивает полезность 8 употреблению шоколадного мороженого.
- Присваивает полезность 0 тому, чтобы вообще не есть мороженое.
Это говорит нам о том, что если предложить агенту такие варианты выбора, как…
- Вариант A: 50% вероятность остаться без мороженого, 50% вероятность шоколадного мороженого.
- Вариант B: 100% вероятность ванильного мороженого.
- Вариант C: 30% вероятность остаться без мороженого, 70% вероятность шоколадного мороженого.
…то агент предпочтет B вместо A и C вместо B, поскольку соответствующие ожидаемые полезности равны:
- $ 0.5 \cdot 0 + 0.5 \cdot 8 = 4 $
- $ 1.0 \cdot 5 = 5 $
- $ 0.3 \cdot 0 + 0.7 \cdot 8 = 5.6 $
Обратите внимание, что мы могли бы умножить все вышеприведенные значения полезности на 2, или на 1⁄2, или прибавить ко всем значениям 5, но это не повлияло бы на поведение агента. Приведенная выше функция полезности на деле говорит нам, что:
«Длина интервала от ванильного мороженого до шоколадного мороженого составляет 60% от длины интервала от отсутствия мороженого до ванильного мороженого, и знак обоих интервалов положительный».
Эти относительные интервалы не изменяются при положительных аффинных преобразованиях (добавлении действительного числа или умножении на положительное действительное число), поэтому функции полезности эквивалентны с точностью до положительного аффинного преобразования.
Путаница, которой нужно избегать
Агент стремится к шоколадному мороженому не для того, чтобы получить какую-ту отдельную желаемую штуку, называемую «полезностью». Вместо этого понятие «полезности» работает как абстрактная мера того, насколько сильно агент стремится к шоколадному мороженому по сравнению с другими вещами, которые его интересуют.
Рассмотрение того, что функции полезности остаются неизменными при умножении на 2, помогает подчеркнуть следующие факты:
- Полезность не является целостной сущностью; нет инвариантного способа определить, «сколько полезности» агент набрал за свою жизнь. (На любое число мы с тем же успехом могли бы сказать, что полезность вдвое выше.)
- Полезность измеряет относительные предпочтения агента; это не какая-то штука, которую агент хочет вместо прочих вещей. Мы с тем же успехом могли бы описать относительную ценность чего угодно в терминах отношения к съедению шарика шоколадного мороженого, не вводя при этом каких-либо отдельных единиц «полезности».
- Агенту не нужно мысленно представлять «функцию полезности», чтобы его поведение соответствовало этой функции. В приведенном выше примере агент на самом деле мог бы присваивать поеданию шоколадного мороженого 8.1 полезности, и он выражал бы те же видимые предпочтения, что и A < B < C. То есть его поведение можно рассматривать как согласующееся с любой из этих двух функций полезности, и возможно, агент вообще не представляет никакой функции полезности в явном виде.
О некоторых других возможных заблуждениях:
- Говоря, что мы можем рассматривать агента как ведущего себя в соответствии с некоторой функцией полезности, мы ничего не говорим о том, чего именно хочет агент. Теория ожидаемой полезности сама по себе не требует, чтобы шоколадное мороженое было более полезным, чем ванильное.
- Таким образом, формализм ожидаемой полезности — это нечто совершенно отличное от утилитаризма — моральной философии, которая может ошибочно с ним ассоциироваться из-за названия (на английском “utility” означает “полезность”, поэтому “утилитаризм” звучит как “полезностнизм” — прим. пер.)
- Ожидаемая полезность никоим образом не подразумевает, что каждая дополнительная единица мороженого или каждый дополнительный доллар оцениваются одинаковой величиной. Легко может сложиться такая ситуация:
- Съесть 1 единицу ванильного мороженого: 5 полезности.
- Съесть 2 порции ванильного мороженого: 7 полезности.
- Съесть 3 порции ванильного мороженого: 7.5 полезности.
- Съесть 4 порции ванильного мороженого: 3 полезности (потому что заболит живот).
То есть последовательные функции полезности должны быть последовательны в том, как они оценивают конечные итоги во всей их полноте, а не в том, как они оценивают разные дополнительно добавляемые единицы мороженого.
Точно так же нет правила, по которому прибыли в размере 200 000 долларов должно приписываться вдвое больше полезности, чем прибыли в 100 000 долларов — на деле в реальной жизни это обычно не так. Отдача от денег для людей уменьшается: чем вы богаче, тем меньше значит для вас каждый дополнительный доллар.
Это, в свою очередь, значит, что ожидаемая прибыль от приносящей деньги игры обычно будет отличаться от ее ожидаемой полезности.
К примеру, большинство людей предпочли бы (A) 1 000 000 долларов точно, а не (B) 50%-ную вероятность получить 2 000 010 долларов и 50%-ную вероятность ничего не получить; поскольку дополнительные 1 000 010 долларов будут иметь для них существенно меньшую дополнительную ценность по сравнению с первыми 1 000 000 долларами. Например, полезности 0 долларов, 1 000 000 долларов и 2 000 010 долларов могут составлять примерно 0, 1 и 1.2.
Таким образом, игра A имеет более высокую ожидаемую полезность, чем игра B, даже несмотря на то, что игра B приводит к более высокому ожидаемому выигрышу в долларах (больше на 5 долларов). Нет полезного понятия, которое описывалось бы как «полезность ожидаемой прибыли»; то, что нам нужно, — это «ожидаемая полезность прибыли».
И наоборот, когда мы говорим о полезности, мы говорим о единице измерения убывающей отдачи. Согласно определению полезности, прибыль, которой вы назначаете +10 полезности (по сравнению с какой-то базовой альтернативой), — это то, чего вы хотите в два раза сильнее, чем прибыль, которой вы назначили +5 полезности. Нет никакого смысла представлять себе убывающую отдачу от полезности, как если бы полезность была отдельным благом, а не единицей измерения отдачи от благ.
Если вы утверждаете, что приписываете выигрышу X ожидаемую полезность +1 000 000, то вы должны хотеть получить его в миллион раз сильнее, чем некоторый выигрыш Y, которому вы назначили ожидаемую полезность +1. Вы также утверждаете этим, что обменяли бы гарантию получения Y на шанс 1 из 999 999 получить X. Если это не так, то вы либо не являетесь последовательным агентом, оптимизирующим ожидаемую полезность (что вполне вероятно), либо на самом деле цените X не в миллион раз сильнее, чем Y (что тоже вероятно). Если обычные объемы прибыли находятся в пределах 1 единицы полезности, то мысль о прибыли в +1 000 000 полезности гораздо более поразительна, чем просто о прибыли размером в миллион долларов.
Мотивация идеи полезности
Различные теоремы о когерентности показывают, что если ваше поведение не может рассматриваться как согласованное с некоторой непротиворечивой функцией полезности, заданной на исходах, то вы, должно быть, используете доминируемую стратегию. И наоборот, если вы не используете доминируемую стратегию, то можно интерпретировать ваше поведение так, как будто у вас есть последовательная функция полезности. См. этот урок.