Археология
Архитектура
Астрономия
Аудит
Биология
Ботаника
Бухгалтерский учёт
Войное дело
Генетика
География
Геология
Дизайн
Искусство
История
Кино
Кулинария
Культура
Литература
Математика
Медицина
Металлургия
Мифология
Музыка
Психология
Религия
Спорт
Строительство
Техника
Транспорт
Туризм
Усадьба
Физика
Фотография
Химия
Экология
Электричество
Электроника
Энергетика

Решение игр в смешанных стратегиях

Рассмотрим теперь ситуацию, когда верхняя и нижняя цены не совпадают . В этом случае игра решается в смешанных стратегиях. Смешанный стратегии предполагают, что каждый игрок будет выбирать случайно из возможно допустимых чистых стратегий (но выбирать их с вероятностями), либо частично реализовывать чистые стратегии в заданных пропорциях. Нахождение этих вероятностей (или пропорций) и является решением игры. Таким образом, в общем виде, решением игры являются смешанные стратегии и , где и - вероятности чистых стратегий в смешанной.
Рассмотрим сначала простейший случай игры, решаемой в смешанных стратегиях – игру 2х2, когда у каждого игрока имеется лишь по две стратегии. Платежная матрица такой игры есть:

	B₁	B₂
A₁	a₁₁	a₁₂
A₂	a₂₁	a₂₂

Решение игры и , где , , , . Цена игры равна .
Пример. Игрок А прячет в одной из рук монету. Игрок В пытается угадать руку с монетой. Если В не угадывает, то А получает от В 1 у.е. Если В угадывает руку с монетой и эта рука правая, то он получает от А 1 у.е. Если В находит монету в левой руке, то он получает от А 2 у.е. Определить оптимальные стратегии поведения для каждого игрока и средний выигрыш для А.
Пусть стратегии игроков: А₁ – спрятать в правой; В₁ – искать в правой; А₂ – спрятать в левой; В₂ – искать в левой. Игровая матрица для данной ситуации относительно игрока А имеет вид:

	B₁	B₂
A₁	-1
A₂		-2

Тогда вероятности чистых стратегий в смешанной равны:
, , , . Цена игры равна .
Таким образом, игроку А нужно случайно чередовать руки с монетой, но в правой руке прятать в среднем в трех случаях из пяти, а в левой в двух случаях из пяти. В это случае в каждой игре в среднем А получит (-1/5) руб., то есть теряет 20 коп., игра для А не выгодная. Для игрока В выгодно также чередовать руки в которых он ищет монету, но в правой руке искать в 3 случаях из 5, что приведет к среднему выигрышу для него в 20 коп. за игру.
В некоторых случаях удается аналогичным образом решить и игровые ситуации с платежными матрицами, большего размера, упростив их до игры 2х2. При этом используются следующие правила:
1) Если все элементы какой-либо строки платежной матрицы не превышают соответствующих элементов любой другой строки, то строка с меньшими элементами соответствует стратегии, которая для игрока А заведомо не выгодна при любом ответе игрока В. Поэтому из платежной матицы строку с меньшими элементами можно вычеркнуть, тем самым выведя из рассмотрения соответствующую ей стратегию.
2) С другой стороны, для игрока В невыгодна заранее, независимо от ответа А, стратегия, которой соответствует столбец платежной матрицы, у которого все элементы больше или равны соответствующим элементам любого другого столбца. Столбец с большими элементами также можно вывести из рассмотрения, вычеркнув из платежной матрицы.
Пример.
Директор транспортной компании А, оказывающей транспортные услуги по перевозке пассажиров в областном центре, планирует открыть один или несколько маршрутов: А₁, А₂, А₃ и А₄. Для этого было закуплено 100 микроавтобусов. Он может поставить весь транспорт на одном из маршрутов (наиболее выгодном), либо распределить по нескольким маршрутам. Спрос на транспорт, а соответственно и прибыль компании во многом зависит от того, какие маршруты в ближайшее время откроет главный конкурент - компания В. Ее руководство полностью владеет ситуацией и может открыть несколько из пяти маршрутов В₁, В₂, В₃, В₄ и В₅. Оценки прибыли компании А (млн. руб.) при любом ответе В представлена платежной матрицей:

	В₁	В₂	В₃	В₄	В₅
А₁
А₂
А₃
А₄

Находим оптимальное распределение прибыли по маршрутам и ожидаемую прибыль.
Вычеркиваем из таблицы второй столбец, т.к. все его элементы больше или равны элементам третьего. Вычеркиваем четвертую строку, т.к. ее оставшиеся элементы меньше элементов третьей. Элементы первого столбца больше элементов третьего, вычеркиваем первый столбец. Вторую строку вычеркиваем в результате сравнения с первой. Четвертый столбец вычеркиваем после сравнения с третьим. В результате получаем матрицу:

которая эквивалентна матрице:

	B₃	B₅
A₁
A₃

Тогда вероятности чистых стратегий компании А в смешанной равны: , . Цена игры равна . Следовательно, 1/6 часть автопарка (17 машин) нужно направить на маршрут А₁, а остальные 5/6 парка (83 машины) на маршрут А₃. Маршруты А₂ и А₄ использовать не рационально. При этом прибыль, не зависимо от ответа компании В будет составлять 34/6 млн. руб.
Рассмотрим случай, когда платежную матрицу нельзя упростить до размера 2х2. Пусть упрощенная платежная матрица имеет вид: . Тогда для нахождения вероятностей и смешанных стратегий и , необходимо решать прямую и двойственную задачи линейного программирования вида:

Из решения задач линейного программирования находятся цена игры и вероятности состояний .
Пример. Построить прямую и двойственную задачи линейного программирования для решения матричной игры, заданной платежной матрицей: .
Прямая и двойственная задачи линейного программирования имеют вид:

Из решения можно найти игры цену игры и вероятности состояний .

Игры с природой

В рассмотренных ранее задачах соперником игрока А был другой «мыслящий» игрок В. Однако часто таким «соперником» может быть некоторое стечение обстоятельств, неконтролируемое человеком. Выбор стратегии стороной В происходит случайно, совершенно не рассматривая, выгодно это А или нет. Такие ситуации называются играми с природой.
Предположим, что игрок А имеет п альтернатив решения ситуации, которые обозначим . Результат выбора (выигрыш А) зависит от того, как будит развиваться ситуация, на которую этот игрок повлиять ни как не может. Предположим, что возможны m вариантов развития ситуации, которые обозначим . Данные варианты в теории игр называют «Состояниями природы», т.к. в большинстве реальные задачи этого типа связаны с погодными, климатическими, социальными и другими стихийными явлениями.
Допустим, что известен результат для игрока А (выраженный количественно) при каждой альтернатива A_i и развитии ситуации B_j. Обозначим его . Получаем матрицу , которую называют матрицей выигрышей или матрицей потерь, в зависимости от того, максимизируется или минимизируется результат для игрока А.
В соответствии с реальными условиями, существует несколько критериев принятия решений в условиях неопределенности. Для более наглядного описания этих методов, рассмотрим их на примерах. Изучим сначала критерии максимизации результата, когда показатели привлекательности чем больше, тем лучше для А.
ПРИМЕР 1.
Директор торговой фирмы, продающей телевизоры марки «Zarya» решил открыть представительство в областном центре. У него имеются альтернативы либо создавать собственный магазин в отдельном помещении, либо организовывать сотрудничество с местными торговыми центрами. Всего можно выделить 5 альтернатив решения: Успех торговой фирмы зависит от того, как сложится ситуация на рынке предоставляемых услуг. Эксперты выделяют 4 возможных варианта развития ситуации Прибыль фирмы для каждой альтернативы при каждой ситуации представлена матрицей выигрышей (млн. р./год).

	B₁	B₂	B₃	B₄
А₁
А₂
А₃
А₄
А₅

Рассмотрим основные критерии, позволяющие выбирать оптимальную альтернативу для принятия решения.
1) Критерий Лапласа.
Он основан на предположении, что каждый вариант развития ситуации (состояния «природы») равновероятен. Поэтому, для принятия решения, необходимо рассчитать функцию полезности для каждой альтернативы, равную среднеарифметическому показателей привлекательности по каждому «состоянию природы»:
.
Выбирается та альтернатива, для которой функция полезности максимальна. Для примера:

Видно, что функция полезности максимальна для альтернативы А₅, следовательно ее рациональнее всего принять.
2) Критерий Вальда.
Данный критерий основывается на принципе максимального пессимизма, то есть на предположении, что скорее всего произойдет наиболее худший вариант развития ситуации и риск наихудшего варианта нужно свести к минимуму. Для применения критерия нужно для каждой альтернативы выбрать наихудший показатель привлекательности (наименьшее число в каждой строке матрицы выигрышей) и выбрать ту альтернативу, для которой этот показатель максимальный. Для нашего примера: Видно, что наилучшим из наихудших показателей обладает альтернатива А₂ , для нее наибольшее.
3) Критерий максимального оптимизма.
Наиболее простой критерий, основывающийся на идее, что ЛПР, имея возможность в некоторой степени управлять ситуацией, рассчитывает, что произойдет такое развитие ситуации, которое для него является наиболее выгодным. В соответствии с критерием принимается альтернатива, соответствующая максимальному элементу матрицы выигрышей. Для приведенного примера эта величина , поэтому выбираем альтернативу .
4) Критерий Сэвиджа.
Он основан на принципе минимизации потерь, связанных с тем, что игрок А принял не оптимальное решение. Для решения задачи составляется матрица потерь, которая называется матрицей рисков , которая получается из матрицы выигрышей путем вычитания из максимального элемента каждого столбца всех остальных элементов. В рассматриваемом примере эта матрица есть:

	B₁	B₂	B₃	B₄
А₁
А₂
А₃
А₄
А₅

Далее, для каждой альтернативы определяем величины , равные максимальному риску (наибольшее число в каждой строке матрицы рисков) и выбирают ту альтернативу, для которой максимальный риск минимален. В нашем примере: минимально Принимаем альтернативу А₂.
5) Критерий Гурвица.
Это самый универсальный критерий, который позволяет управлять степенью «оптимизма - пессимизма» игрока А. Введем некоторый коэффициент a, который назовем коэффициентом доверия или коэффициентом оптимизма. Этот коэффициент можно интерпретировать как вероятность, с которой произойдет наилучший для А исход. Исходя из этого, наихудший вариант можно ожидать с вероятностью (1-α). Коэффициент доверия a показывает, насколько игрок А может управлять ситуацией и в той или иной степени рассчитывает на благоприятный для него исход. Если вероятности благоприятной и неблагоприятной ситуации для А равны, то следует принять α=0,5.
Для реализации критерия определяются наилучшие и наихудшие значение каждой альтернативе по формулам , . Далее, вычисляются функции полезности по формуле:
.
Выбирается та альтернатива, для которой функция полезности максимальна.
Предположим, что для нашего примера игрок А достаточно уверен в положительном результате и оценивает вероятность максимального успеха в α=0,7. Тогда:

В соответствии с расчетами игроку А следует выбрать альтернативу А₃. Если же, например, А не очень уверен в положительном исходе и расценивает его вероятность порядка α=0,2, то функции полезности равны:

Видно, что в этом случае следует принять А₂, для которого функция полезности максимальна.
Следует отметить, что при α=0, критерий Гурвица переходит в пессимистический критерий Вальда, а при α=1 – в критерий максимального оптимизма.
В случае, если показатель привлекательности по критерию минимизируются (чем меньше, тем лучше для А, например затраты, риск и др.), то критерии принятия оптимального решения несколько меняются. Рассмотрим эти отличия.
Критерий Лапласа определяет оптимальное решение по минимальной функции полезности. Применяя критерий Вальда необходимо вычислять максимальный показатель каждой альтернативы (строки) и принимать альтернативу, где этот показатель минимален. Критериймаксимального оптимизма позволяет определить оптимальное решение, соответствующее минимальному элементу матрицы выигрышей (которую в случае минимизации часто называют матрицей потерь). Матрица рисков в критерии Сэвиджа получается в результате вычитания из каждого элемента матрицы потерь минимального элемента каждого столбца . Для реализации критерия Гурвица вычисляются максимальные и минимальные показатели для каждой альтернативы , и функции полезности рассчитываются по формуле: . Выбирается альтернатива с наименьшей функцией полезности. Рассмотрим пример.
ПРИМЕР 2.Нефтяная компания собирается построить в районе крайнего севера нефтяную вышку. Имеется 4 проекта A, B, C и D. Затраты на строительство (млн. руб.) зависят от того, какие погодные условия будут в период строительства. Возможны 5 вариантов погоды . Выбрать оптимальный проект для строительства используя критерии Лапласа, Вальда, максимального оптимизма, Сэвиджа и Гурвица при . Матрица затрат имеет вид:

	S₁	S₂	S₃	S₄	S₅
A₁
A₂
A₃
A₄

Критерий Лапласа.

Следует выбрать альтернативу А₁.
Критерий Вальда: среди наихудших вариантов α₁=12, α₂=10, α₃=15, α₄=11, наилучший соответствует α₂=10, следовательно принимаем альтернативу А₂.
Критериймаксимального оптимизма. Соответствует альтернативе, для которой минимальное.
Критерии Сэвиджа имеет матрицу рисков:

	S₁	S₂	S₃	S₄	S₅
A₁
A₂
A₃
A₄

Максимальные элементы для каждого критерия матрицы рисков равны: β₁=4; β₂=4; β₃=8; β₄=3. Принимаем альтернативу, соответствующую минимальному значению β₄=3, то есть А₄.
В соответствии с критерии Гурвица на уровне , функции полезности равны:

Принимаем альтернативу А₂ с наименьшей функцией полезности .

Назад

Поиск по сайту: