Теория игр

Математический язык для описания взаимодействий, в которых результат каждого участника зависит от того, что делают остальные. Главные концепты: игроки, стратегии, выплаты, дилемма заключённого, равновесие Нэша, Парето-оптимум, повторяющиеся игры, нулевая и ненулевая сумма, эволюционно стабильная стратегия.

Что моделирует теория игр

Любая ситуация, где есть:

  • Несколько участников (игроков)
  • У каждого набор возможных действий (стратегий)
  • Результат каждого зависит не только от его выбора, но и от выбора других

Под это определение попадает огромное количество ситуаций: переговоры, конкуренция фирм, дипломатия, эволюция, спорт, отношения. Везде, где «моё лучшее» зависит от «что сделает другой», работает теория игр.

Базовая модель: игроки, стратегии, выплаты

Минимальная игра задаётся тремя элементами:

  • Игроки — стороны, которые принимают решения. Двое, трое, много — неважно для логики
  • Стратегии — варианты действий, доступные каждому игроку
  • Функция выплат — правило, по которому для каждой комбинации стратегий определяется, что получит каждый игрок

Игра обычно записывается таблицей. Слева — стратегии первого игрока, сверху — стратегии второго, в ячейках — пары выплат (что получит каждый).

Это упрощение реальности, но мощное: один раз построив таблицу, можно математически найти, какие решения рациональны.

Дилемма заключённого

Самая известная игра. Двое подозреваемых задержаны, каждому предлагают сделку: признаться (предать) или молчать (сотрудничать). Они не могут договориться.

Б молчитБ признаётся
А молчитоба по 1 годуА — 10 лет, Б — на свободе
А признаётсяА — на свободе, Б — 10 летоба по 5 лет

Логика А: «Если Б молчит — мне выгоднее признаться (свобода вместо года). Если Б признаётся — мне всё равно лучше признаться (5 лет вместо 10). Значит, в любом случае выгоднее признаться».

Б рассуждает так же. Оба признаются. Оба получают 5 лет — хотя оба молчали бы по 1 году.

Парадокс: каждый, выбирая лучшее для себя, получает худшее для обоих. Индивидуально рациональные решения дают коллективно плохой результат.

Дилемма заключённого — фундаментальная модель проблемы сотрудничества. Она проявляется в политике (гонка вооружений), экономике (картельные сговоры), экологии (общие ресурсы), отношениях.

Равновесие Нэша

Равновесие Нэша — комбинация стратегий, из которой ни один игрок не может улучшить свой результат, изменив только свой выбор. У других стратегии остаются прежними.

В дилемме заключённого равновесие Нэша — «оба признаются». Если только А переключится на молчание (а Б продолжит признаваться), А станет хуже. Поэтому А не переключится. То же для Б. Они застряли в этой точке.

Главное свойство равновесия Нэша: оно устойчиво. Никто не двинется первым, даже если все понимают, что общими действиями можно прийти к лучшему результату.

В игре может быть несколько равновесий Нэша, или ни одного. В дилемме заключённого — одно.

Парето-оптимум

Парето-оптимум — состояние, в котором нельзя улучшить результат одного игрока, не ухудшив результат другого. Это понятие о «справедливой» эффективности: все возможные общие выгоды уже распределены.

В дилемме заключённого Парето-оптимум — «оба молчат» (1+1 = 2 года в сумме, минимум). Любое отклонение от этой точки ухудшает хотя бы одному игроку положение.

Главное наблюдение: равновесие Нэша и Парето-оптимум могут не совпадать. В дилемме заключённого равновесие Нэша (оба признаются, 5+5 = 10 лет) хуже Парето-оптимума (оба молчат, 1+1 = 2 года) для всех. Это та самая ловушка: рациональное поведение каждого ведёт всех в неоптимум.

Повторяющиеся игры

Если игроки взаимодействуют не раз, а много раз подряд, появляется новый ключевой ресурс — память. Каждый помнит, как другой вёл себя в прошлом, и может это учитывать в текущем выборе.

Турниры Роберта Аксельрода (1980-е) показали: в повторяющейся дилемме заключённого побеждает простая стратегия «око за око» (tit-for-tat):

  • Первый ход: сотрудничать
  • Дальше: повторять прошлый ход противника

Почему она работает:

  • С мирно настроенным противником стратегия выстраивает устойчивое сотрудничество — оба получают максимум каждый раз
  • С агрессивным — отвечает агрессией, не даёт себя эксплуатировать
  • С такой же стратегией — устанавливается мир, потому что первый ход всегда мирный

Чистое «око за око» уязвимо к ошибкам: одна случайная агрессия запускает цикл взаимного наказания. Более устойчивая версия — великодушное око за око: иногда прощать. Это ближе к реальной дипломатии и интуитивно ближе к морали.

Главный вывод: одна добавленная деталь (память) переворачивает оптимальную стратегию. В одиночной игре выгодно предавать, в повторяющейся — сотрудничать.

Информация как переключатель

Помимо памяти, есть другие факторы, меняющие рациональную стратегию:

ФакторБез негоС ним
Память о прошлых играхВыгодно предатьВыгодно сотрудничать
Репутация (другие знают о действиях)Кинуть одного — остальные не в курсеКинуть одного — знают все
Прозрачность (видно, что делает другой)Блеф выгоденБлеф бесполезен
Известный горизонт игрыЕсли знаешь последний ход — выгодно предатьЕсли не знаешь, когда конец — выгодно сотрудничать

Общий принцип: чем больше информации в системе, тем выгоднее быть честным. Это не мораль, а математика. Честность становится рациональным выбором только при определённой плотности информационной среды.

Нулевая и ненулевая сумма

Игра с нулевой суммой — выигрыш одного равен проигрышу другого. Общая ценность не создаётся, только перераспределяется. Шахматы, покер, военные конфликты за территорию.

Игра с ненулевой суммой — суммарная выплата зависит от комбинации стратегий. Включает:

  • Положительную сумму — общая ценность растёт. Кооперация в науке, торговля, open source
  • Отрицательную сумму — общая ценность падает. Дилемма заключённого в обоюдном предательстве

Тест: создаётся ли в игре новая ценность? Если да — положительная сумма. Если только перераспределяется — нулевая.

Стратегически: в игру с положительной суммой почти всегда выгодно играть, в нулевой — только если есть преимущество. Это объясняет, почему долгосрочные системы (рынки, экосистемы, культуры) тяготеют к ненулевым суммам — там накапливается ценность, а в нулевых она только переходит из рук в руки.

Эволюционно стабильная стратегия (ESS)

В эволюционной теории игр игроки — не разумные агенты, а особи популяции, играющие свою стратегию автоматически. Отбор повышает долю успешных стратегий и убирает неуспешные.

Эволюционно стабильная стратегия (ESS, концепт Джона Мейнарда Смита) — стратегия, которую невозможно вытеснить, если она занимает популяцию. Любая мутантная стратегия, появившаяся в популяции, размножается медленнее, чем доминирующая, и постепенно исчезает.

Формально: стратегия S — ESS, если для любой альтернативной T выполняется хотя бы одно из:

  • Выплата S против S больше, чем T против S (S успешнее против S)
  • Если выплаты равны (T против S = S против S), то S успешнее против самой T

ESS — это эволюционная версия равновесия Нэша. Она объясняет, почему в природе закрепляются именно определённые поведенческие стратегии: голубь vs ястреб в конфликте за ресурс, стратегии родительских инвестиций, ритуальные формы агрессии.

ESS не обязательно «оптимальная»: она устойчивая. Популяция «голубей» в чистом виде не ESS — туда легко вторгнется одинокий «ястреб» и эксплуатирует мирных. Поэтому реальные ESS обычно — смеси стратегий или условные правила вроде «если меньше — уступать, если больше — драться».