Обоснование выбора решения в предыдущих главах выполнялось с позиций объективиста. Если же ЛПР - субъективист, то он будет руководствоваться индивидуально определенным БДЭ. Поясним смысл этой величины. Рассмотрим ситуацию, когда игрок с вероятностью 0,8 выигрывает 40 руб. и с вероятностью 0,2 проигрывает 20 руб. Попробуем выяснить, за какую сумму ЛПР уступит свое право участвовать в игре. Объективист пользуется правилом: БДЭ = ОДО = 0,8 ∙ 40 + 0,2 ∙ (-20) = 28 руб. Поэтому свое право на игру он уступит не менее чем за 28 руб. Субъективист, как правило, готов уступить свое право на игру за меньшую сумму, поскольку для него БДЭ < ОДО.
Причинами такого поведения могут быть:
• финансовое состояние игрока (возможно, он на грани банкротства и ему необходимы денежные средства);
• отношение игрока к риску вообще (несклонность к риску);
• настроение или состояние здоровья игрока;
• множество других, даже непосредственно не относящихся к бизнесу, причин.
Величина БДЭ может изменяться со временем в зависимости от обусловленных указанными причинами обстоятельств. Например, в случае катастрофической нехватки финансовых средств (наличных денег) право на игру можно уступить и за более низкий эквивалент.
Исследуем реалистичность критерия выбора решения, основанного на расчете ОДО. Рассмотрим две альтернативы:
1) выигрыш 1000000 руб. с вероятностью 1;
2) игра (лотерея): выигрыш 2100000 руб. с вероятностью 0,5 и проигрыш 50000 руб. с вероятностью 0,5.
В этом случае
ОДО = 0,5 ∙ 2100000 - 0,5 ∙ 50000 = 1025000 руб.
Относительно получаемого среднего выигрыша указанные альтернативы практически эквивалентны, и если игрок безразличен к риску, он выберет вторую альтернативу. Если он к риску небезразличен, а подавляющее число людей именно таковыми являются, то выбор будет зависеть главным образом от финансового состояния игрока. Игроки, имеющие скромный денежный доход, предпочтут не рисковать и выберут гарантированный выигрыш. Для ЛПР, обладающего достаточно крупным капиталом, проигрыш в 50000 руб. невелик, и он предпочтет рискнуть. Рисковать будут также игроки, патологически склонные к финансовым авантюрам.
Методология рационального принятия решений в условиях неопределенности, основанная на функции полезности индивида, опирается на пять аксиом, которые отражают минимальный набор необходимых условий непротиворечивого и рационального поведения игрока.
Предположим, что конструируется игра, в которой индивид с вероятностью α получает денежную сумму х и с вероятностью (1 - α) - сумму z. Эту ситуацию будем обозначать G(x, z: α).
Аксиома 1. Аксиома сравнимости (полноты).
Для всего множества S неопределенных альтернатив (возможных исходов) индивид может сказать, что либо исход х предпочтительнее исхода у (ху), либо у х, либо индивид безразличен в отношении к выбору между х и у (х ~ у). Запись х у означает, что исход х предпочтительнее исхода у либо индивид безразличен в отношении к выбору между х и у.
Если х у и у z, то х z. Если х ~ у и у ~ z, то х ~ z.
Аксиома 3. Аксиома сильной независимости.
Предположим, что мы конструируем игру, в которой индивид с вероятностью α получает денежную сумму х и с вероятностью (1 - α) - сумму z, т.е. G(x, z: α). Сильная независимость означает, что если индивид безразличен в отношении к выбору между х и у (х ~ у),то он также будет безразличен в отношении к выбору между игрой (лотереей) G(x, z: α) и игрой G(y, z: α), т.е. из х ~ у следует G(x, z: α) ~ G(y, z: α).
Аксиома 4. Аксиома измеримости.
Если х у ~ z или х ~ уz, то существует единственная вероятность α такая, что у ~ G(x, z: α).
Поясним смысл этой аксиомы. Пусть, например, имеем три исхода: х = 1000; у = 0; z означает смерть игрока. Однако смерть нельзя сравнивать ни с каким выигрышем и соответствующего этому исходу значения вероятности α существовать не может. Однако в жизни бывают ситуации, когда некий проигрыш равнозначен смерти. Тогда утверждение у ~ G(x, z: α) можно считать справедливым для некоторого значения 0 ≤ α ≤ 1.
Аксиома 5. Аксиома ранжирования.
Если альтернативы у и u находятся по предпочтительности между альтернативами х и z и можно построить игры такие, что индивид безразличен в отношении к выбору между у и G(x, z: α1), а также к выбору между и и G(x, z: α2), то при α1 > α2у и.
Поясним смысл этой аксиомы. Пусть существуют следующие альтернативы: х = 1000; у = 500; и = 200, z = -10. Пусть эквивалентны две пары ситуаций, одна из которых неигровая, а другая игровая:
1) гарантированно получить 500 или игра: с вероятностью α1 выиграть 1000 и с вероятностью (1 – α1) проиграть 10, т.е.
500 ~ G(1000, -10: α1);
2) гарантированно получить 200 или игра: с вероятностью α2 выиграть 1000 и с вероятностью (1 – α2) проиграть 10, т.е.
200 ~ G(1000, -10: α2).
Очевидно, что при указанных условиях α1 > α2. Если α1 = α2, то у ~ и.
Утверждение аксиомы позволяет заключить: чем больше вероятность крупного выигрыша, тем больше игра «стоит», т.е. тем большая плата потребуется за приобретение права в ней участвовать.
Если принять приведенные аксиомы и предположить, что люди предпочитают большее количество некоторого блага меньшему, то все это в совокупности определяет рациональное поведение ЛПР.
При названных предположениях американскими учеными Дж. Нейманом и О. Моргенштерном было показано, что ЛПР при принятии решения будет стремиться к максимизации ожидаемой полезности. Другими словами, из всех возможных решений он выберет то, которое обеспечивает наибольшую ожидаемую полезность. Сформулируем определение полезности по Нейману-Моргенштерну.
Полезность - это некоторое число, приписываемое лицом, принимающим решение, каждому возможному исходу. Функция полезности Неймана - Моргенштерна для ЛПР показывает полезность, которую он приписывает каждому возможному исходу. У каждого ЛПР своя функция полезности, которая показывает его предпочтение к тем или иным исходам в зависимости от его отношения к риску.
Ожидаемая полезность события равна сумме произведений вероятностей исходов на значения полезностей этих исходов.
Пример 5.1. Нефтеперерабатывающая фирма решает вопрос о бурении скважины. Известно, что если фирма будет бурить, то с вероятностью 0,6 нефти найдено не будет; с вероятностью 0,1 запасы месторождения составят 50000 т; с вероятностью 0,15 - 100000 т; с вероятностью 0,1 - 500000 т; с вероятностью 0,05 - 1000000 т. Если нефть не будет найдена, то фирма потеряет 50000 долл.; если мощность месторождения составит 50000 т, то потери снизятся до 20000 долл.; мощность месторождения в 100000 т принесет прибыль 30000 долл.; 500000 т - 430000 долл.; 1000000 т - 930000 долл. Дерево решений данной задачи представлено на рисунке 5.1.
Если ЛПР, представляющий фирму, безразличен к риску и принимает решение о проведении буровых работ на основании рассчитанного ОДО, то он воспринимает ожидаемую полезность как пропорциональную ОДО, полагая U = 62. Учитывая, что U - индивидуальное число, характеризующее ЛПР, нули, отвечающие расчету ОДО, можно отбросить. В этом случае функция полезности U(v), где v - прибыль, получаемая при различных исходах, является прямой с положительным наклоном.
Для принятия решения в случае небезразличия ЛПР к риску необходимо уметь оценивать значения полезности каждого из допустимых исходов. Дж. Нейман и О. Моргенштерн предложили процедуру построения индивидуальной функции полезности, которая (процедура) заключается в следующем: ЛПР отвечает на ряд вопросов, обнаруживая при этом свои индивидуальные предпочтения, учитывающие его отношение к риску. Значения полезностей могут быть найдены за два шага:
Шаг 1. Присваиваются произвольные значения полезностей выигрышам для худшего и лучшего исходов, причем первой величине (худший исход) ставится в соответствие меньшее число. Например, для приведенной выше задачи U(-50000 долл.) = 0, а U(930000 долл.) = 50. Тогда полезности промежуточных выигрышей будут находиться в интервале от 0 до 50. Полезность исхода даже для одного индивида определяется не однозначно, а с точностью до монотонного преобразования. Пусть, например, имеем х1, x2, …, хп - полезности, приписываемые п ожидаемым значениям выигрышей. Тогда α + βx1, α + βx2, …, α + βxn (где β > 0) также будут полезностями. Если в задаче 5.1 при расчете полезности отбросить последние нули, это будет эквивалентно линейному преобразованию функции полезности при α = 0 и β = 0,001.
Шаг 2. Игроку предлагается на выбор: получить некоторую гарантированную денежную сумму v, находящуюся между лучшим и худшим значениями S и s, либо принять участие в игре, т.е. получить с вероятностью р наибольшую денежную сумму S и с вероятностью (1 - р) -наименьшую сумму s. При этом вероятность следует изменять (понижать или повышать) до тех пор, пока ЛПР станет безразличным в отношении к выбору между получением гарантированной суммы и игрой. Пусть указанное значение вероятности равно р0. Тогда полезность гарантированной суммы определяется как среднее значение (математическое ожидание) полезностей наименьшей и наибольшей сумм, т.е.
U(v) = p0U(S) + (1 - p0)U(s). (5.1)
Рассчитаем полезность результатов любого из возможных исходов для задачи 5.1. Пусть для ЛПР безразлично, потерять 20000 долл. или принять участие в игре (выигрыш 930000 долл. с вероятностью 0,1 или проигрыш 50000 долл. с вероятностью 0,9). Согласно формуле (5.1) имеем:
U(-20) = 0,1 ∙ U(930) + 0,9 ∙ U(-50) = 5,
при этом по определению принято, что U(-50) = 0, U(930) = 50, откуда следует, что U(-20) = 5.
Таким образом, если определена шкала измерения, то может быть построена функция полезности ЛПР (рисунок 5.2).
Рисунок 5.2 – График полезности для задачи 5.1
В общем случае график функции полезности может быть трех типов (рисунок 5.3):
• для ЛПР, не склонного к риску, -строго вогнутая функция, у которой каждая дуга кривой лежит выше своей хорды (рисунок 5.3 а);
• для ЛПР, безразличного к риску, -прямая линия (рисунок 5.3 б);
• для ЛПР, склонного к риску, - строго выпуклая функция, у которой каждая дуга кривой лежит ниже своей хорды (рисунок 5.3 в).
Рисунок 5.3 – Типы функций полезности Неймана-Моргенштерна для ЛПР, не склонного к риску (а), безразличного к риску (б), склонного к риску (в)
Примерами функций полезности являются квадратичная U(v) = а + bv - сv2, логарифмическая U(v) = ln v, логарифмическая со сдвигом U(v) = ln (1 + аv), экспоненциальная U(v) = 1 – exp(-av), степенная U(v) = vа, где 0 < а < 1.
Однако эти функции зависят только от дохода v и поэтому не учитывают влияния внешних факторов на предпочтения ЛПР и, следовательно, на вид кривых полезности.