Теория игр
Математический язык для описания взаимодействий, в которых результат каждого участника зависит от того, что делают остальные. Главные концепты: игроки, стратегии, выплаты, дилемма заключённого, равновесие Нэша, Парето-оптимум, повторяющиеся игры, нулевая и ненулевая сумма, эволюционно стабильная стратегия.
Что моделирует теория игр
Любая ситуация, где есть:
- Несколько участников (игроков)
- У каждого набор возможных действий (стратегий)
- Результат каждого зависит не только от его выбора, но и от выбора других
Под это определение попадает огромное количество ситуаций: переговоры, конкуренция фирм, дипломатия, эволюция, спорт, отношения. Везде, где «моё лучшее» зависит от «что сделает другой», работает теория игр.
Базовая модель: игроки, стратегии, выплаты
Минимальная игра задаётся тремя элементами:
- Игроки — стороны, которые принимают решения. Двое, трое, много — неважно для логики
- Стратегии — варианты действий, доступные каждому игроку
- Функция выплат — правило, по которому для каждой комбинации стратегий определяется, что получит каждый игрок
Игра обычно записывается таблицей. Слева — стратегии первого игрока, сверху — стратегии второго, в ячейках — пары выплат (что получит каждый).
Это упрощение реальности, но мощное: один раз построив таблицу, можно математически найти, какие решения рациональны.
Дилемма заключённого
Самая известная игра. Двое подозреваемых задержаны, каждому предлагают сделку: признаться (предать) или молчать (сотрудничать). Они не могут договориться.
| Б молчит | Б признаётся | |
|---|---|---|
| А молчит | оба по 1 году | А — 10 лет, Б — на свободе |
| А признаётся | А — на свободе, Б — 10 лет | оба по 5 лет |
Логика А: «Если Б молчит — мне выгоднее признаться (свобода вместо года). Если Б признаётся — мне всё равно лучше признаться (5 лет вместо 10). Значит, в любом случае выгоднее признаться».
Б рассуждает так же. Оба признаются. Оба получают 5 лет — хотя оба молчали бы по 1 году.
Парадокс: каждый, выбирая лучшее для себя, получает худшее для обоих. Индивидуально рациональные решения дают коллективно плохой результат.
Дилемма заключённого — фундаментальная модель проблемы сотрудничества. Она проявляется в политике (гонка вооружений), экономике (картельные сговоры), экологии (общие ресурсы), отношениях.
Равновесие Нэша
Равновесие Нэша — комбинация стратегий, из которой ни один игрок не может улучшить свой результат, изменив только свой выбор. У других стратегии остаются прежними.
В дилемме заключённого равновесие Нэша — «оба признаются». Если только А переключится на молчание (а Б продолжит признаваться), А станет хуже. Поэтому А не переключится. То же для Б. Они застряли в этой точке.
Главное свойство равновесия Нэша: оно устойчиво. Никто не двинется первым, даже если все понимают, что общими действиями можно прийти к лучшему результату.
В игре может быть несколько равновесий Нэша, или ни одного. В дилемме заключённого — одно.
Парето-оптимум
Парето-оптимум — состояние, в котором нельзя улучшить результат одного игрока, не ухудшив результат другого. Это понятие о «справедливой» эффективности: все возможные общие выгоды уже распределены.
В дилемме заключённого Парето-оптимум — «оба молчат» (1+1 = 2 года в сумме, минимум). Любое отклонение от этой точки ухудшает хотя бы одному игроку положение.
Главное наблюдение: равновесие Нэша и Парето-оптимум могут не совпадать. В дилемме заключённого равновесие Нэша (оба признаются, 5+5 = 10 лет) хуже Парето-оптимума (оба молчат, 1+1 = 2 года) для всех. Это та самая ловушка: рациональное поведение каждого ведёт всех в неоптимум.
Повторяющиеся игры
Если игроки взаимодействуют не раз, а много раз подряд, появляется новый ключевой ресурс — память. Каждый помнит, как другой вёл себя в прошлом, и может это учитывать в текущем выборе.
Турниры Роберта Аксельрода (1980-е) показали: в повторяющейся дилемме заключённого побеждает простая стратегия «око за око» (tit-for-tat):
- Первый ход: сотрудничать
- Дальше: повторять прошлый ход противника
Почему она работает:
- С мирно настроенным противником стратегия выстраивает устойчивое сотрудничество — оба получают максимум каждый раз
- С агрессивным — отвечает агрессией, не даёт себя эксплуатировать
- С такой же стратегией — устанавливается мир, потому что первый ход всегда мирный
Чистое «око за око» уязвимо к ошибкам: одна случайная агрессия запускает цикл взаимного наказания. Более устойчивая версия — великодушное око за око: иногда прощать. Это ближе к реальной дипломатии и интуитивно ближе к морали.
Главный вывод: одна добавленная деталь (память) переворачивает оптимальную стратегию. В одиночной игре выгодно предавать, в повторяющейся — сотрудничать.
Информация как переключатель
Помимо памяти, есть другие факторы, меняющие рациональную стратегию:
| Фактор | Без него | С ним |
|---|---|---|
| Память о прошлых играх | Выгодно предать | Выгодно сотрудничать |
| Репутация (другие знают о действиях) | Кинуть одного — остальные не в курсе | Кинуть одного — знают все |
| Прозрачность (видно, что делает другой) | Блеф выгоден | Блеф бесполезен |
| Известный горизонт игры | Если знаешь последний ход — выгодно предать | Если не знаешь, когда конец — выгодно сотрудничать |
Общий принцип: чем больше информации в системе, тем выгоднее быть честным. Это не мораль, а математика. Честность становится рациональным выбором только при определённой плотности информационной среды.
Нулевая и ненулевая сумма
Игра с нулевой суммой — выигрыш одного равен проигрышу другого. Общая ценность не создаётся, только перераспределяется. Шахматы, покер, военные конфликты за территорию.
Игра с ненулевой суммой — суммарная выплата зависит от комбинации стратегий. Включает:
- Положительную сумму — общая ценность растёт. Кооперация в науке, торговля, open source
- Отрицательную сумму — общая ценность падает. Дилемма заключённого в обоюдном предательстве
Тест: создаётся ли в игре новая ценность? Если да — положительная сумма. Если только перераспределяется — нулевая.
Стратегически: в игру с положительной суммой почти всегда выгодно играть, в нулевой — только если есть преимущество. Это объясняет, почему долгосрочные системы (рынки, экосистемы, культуры) тяготеют к ненулевым суммам — там накапливается ценность, а в нулевых она только переходит из рук в руки.
Эволюционно стабильная стратегия (ESS)
В эволюционной теории игр игроки — не разумные агенты, а особи популяции, играющие свою стратегию автоматически. Отбор повышает долю успешных стратегий и убирает неуспешные.
Эволюционно стабильная стратегия (ESS, концепт Джона Мейнарда Смита) — стратегия, которую невозможно вытеснить, если она занимает популяцию. Любая мутантная стратегия, появившаяся в популяции, размножается медленнее, чем доминирующая, и постепенно исчезает.
Формально: стратегия S — ESS, если для любой альтернативной T выполняется хотя бы одно из:
- Выплата S против S больше, чем T против S (S успешнее против S)
- Если выплаты равны (T против S = S против S), то S успешнее против самой T
ESS — это эволюционная версия равновесия Нэша. Она объясняет, почему в природе закрепляются именно определённые поведенческие стратегии: голубь vs ястреб в конфликте за ресурс, стратегии родительских инвестиций, ритуальные формы агрессии.
ESS не обязательно «оптимальная»: она устойчивая. Популяция «голубей» в чистом виде не ESS — туда легко вторгнется одинокий «ястреб» и эксплуатирует мирных. Поэтому реальные ESS обычно — смеси стратегий или условные правила вроде «если меньше — уступать, если больше — драться».