Теория игр. Искусство стратегического мышления в бизнесе и жизни - Авинаш Диксит, читать онлайн бесплатно (полностью) 11 стр.

Однако, несмотря на все эти трудности, вознаграждение бывает действенным и полезным. Проявив максимум креативности и воображения, игроки могли бы одновременно дать друг другу обещания и сделать их заслуживающими доверия, поместив обещанное вознаграждение на счете условного депонирования, который контролирует третья сторона[31]. В реальной жизни чаще складывается иная ситуация: поскольку игроки взаимодействуют по нескольким направлениям, сотрудничество в одном из них вознаграждается ответной услугой в чем-то другом. Так, самки шимпанзе делятся едой или присматривают за чужими детенышами в обмен на помощь в уходе за шерстью. В некоторых случаях третья сторона может быть заинтересована в обеспечении сотрудничества в игре. Например, ради того чтобы положить конец конфликтам в разных странах мира, Соединенные Штаты Америки и Европейский союз иногда обещают участникам противостояния экономическую помощь в качестве вознаграждения за мирное решение конфликта. Именно таким способом Соединенные Штаты вознаградили Израиль и Египет за сотрудничество в рамках подписания Кэмп-Дэвидских мирных соглашений в 1978 году.

Более распространенный метод решения дилеммы заключенных – наказание. Он имеет прямое действие. В фильме «Секреты Лос-Анджелеса» сержант Эд Эксли обещает Лерою Фонтейну, одному из подозреваемых, что если он согласится стать государственным свидетелем, то получит более мягкий приговор, чем два других подозреваемых, Рэй Коутс и Тайрон Джонс. Но Лерой знает, что, когда он выйдет из тюрьмы, его могут ждать на свободе друзья этих двоих!

Наказание, которое в данном контексте выглядит более естественным, оказывается возможным в связи с тем, что большинство подобных игр представляют собой часть непрерывного взаимодействия. Обман может обеспечить одному игроку краткосрочное преимущество, но навредит его взаимоотношениям с другим игроком и в долгосрочной перспективе обойдется гораздо дороже. Если цена достаточно велика, именно это может удержать игрока от обмана{50}.

Наглядный пример такой ситуации предоставляет бейсбол. В Американской бейсбольной лиге питчеры попадают мячом в бэттеров на 11–17 процентов чаще, чем в Национальной бейсбольной лиге. По мнению профессоров Университета Юга в Суони Дага Драйнена и Джона-Чарльза Брэдбери, это обусловлено правилом о назначенном хиттере[32]. В Американской бейсбольной лиге питчеры не бьющие игроки. Следовательно, питчер Американской лиги, который попадает мячом в бэттера, может не бояться ответных действий со стороны питчера команды-соперника. Вероятность того, что мяч попадет в питчера, совсем небольшая, но она повышается в четыре раза, если он попал в кого-то в предыдущей половине иннинга. В таком случае страх получить ответный удар очевиден. Первоклассный питчер Курт Шиллинг объяснил это так: «Вы на самом деле готовы бросить в кого-то мяч, если играете против Рэнди Джонсона?»{51}[33].

В ситуации, когда один игрок наказывает другого за обман, действует стратегия «око за око, зуб за зуб». Эта стратегия оказалась настоящим открытием, сделанным в ходе самого известного эксперимента с дилеммой заключенных. В следующем разделе вы узнаете об этом эксперименте и его уроках.

Стратегия равноценных ответных действий

В начале 1980-х годов политолог Мичиганского университета Роберт Аксельрод предложил специалистам по теории игр со всего мира разработать стратегии решения дилеммы заключенных в виде компьютерных программ. Они были распределены по парам, каждая из которых разыгрывала дилемму заключенных 150 раз. На основании набранных очков составили рейтинг программ, принимавших участие в турнире.

Победителем стал профессор математики университета в Торонто Анатолий Рапопорт. Его выигрышная стратегия оказалась одной из самых простых: «око за око, зуб за зуб». Для Роберта Аксельрода этот результат явился большой неожиданностью, поэтому он решил провести еще один турнир, увеличив число участников. Рапопорт и в этот раз подал программу, основанную на той же стратегии, – и снова победил.

Стратегия равноценных ответных действий – один из вариантов правила поведения «поступайте с другими так, как они поступают с вами»{52}. Если говорить более точно, эта стратегия подразумевает сотрудничество на первом этапе, после чего повторяются действия, которые предпринял соперник на предыдущем этапе.

По мнению Роберта Аксельрода, стратегия равноценных ответных действий опирается на четыре принципа, которые должны присутствовать в любой эффективной стратегии для повторяющейся дилеммы заключенных: понятность, доброжелательность, возмездие и прощение. Стратегия равноценных ответных действий очень проста и понятна: сопернику нет необходимости долго размышлять над вашим следующим ходом или просчитывать его. В основе такой стратегии лежит доброжелательность: она никогда не инициирует обман. В этой стратегии есть элемент возмездия: она не оставляет обман безнаказанным. Кроме того, эта стратегия стимулирует прощение: участники игры не держат зла друг на друга слишком долго и готовы возобновить сотрудничество.

Одна из самых впечатляющих характеристик стратегии равноценных ответных действий состоит в том, что она показала лучшие результаты по итогам всего турнира, хотя и не победила (и не могла победить) ни одну из конкурирующих стратегий в прямом противостоянии с ними. В лучшем случае эта стратегия может только сравнять счет с соперником. Следовательно, если бы Аксельрод оценивал каждую игру по принципу «победитель получает все», стратегия равноценных ответных действий имела бы на своем счету только проигрыши и ничьи, а значит, не добилась бы победы по итогам всего турнира{53}.

Однако Аксельрод оценивал парные игры между компьютерными программами не по принципу «победитель получает все»: в его турнирах учитывался такой фактор, как готовность к сотрудничеству. Большое преимущество этой стратегии заключается в том, что она сближает соперников. В худшем случае эта стратегия может потерпеть поражение из-за одного предательства, но дальше – только ничья.

Стратегия равноценных ответных действий стала победителем этих соревнований именно потому, что стимулировала сотрудничество, не допуская при этом эксплуатации. Другие стратегии были либо слишком ориентированными на доверие и открытыми для эксплуатации, либо слишком агрессивными и побуждающими игроков выбивать друг друга из игры.

И все-таки мы считаем, что стратегия равноценных ответных действий – ошибочная. Малейший промах или неправильное толкование результатов приводят к полному провалу стратегии. Этот недостаток не был столь очевидным в искусственной среде соревнования между компьютерными программами, поскольку там просто исключались ошибки и неправильное толкование. Однако в случае применения этой стратегии в реальном мире ошибки и заблуждения неизбежны, а результат может оказаться катастрофическим.

Проблема стратегии равноценных ответных действий состоит в том, что обе стороны противостояния повторяют ошибки и заблуждения друг друга. Одна сторона наказывает другую за предательство, и это вызывает цепную реакцию. Соперник отвечает на наказание ответным ударом, который влечет за собой очередное наказание. В таком противостоянии может и не наступить момент, когда одна из сторон приняла бы наказание без ответного удара.

Предположим, Флад и Дрешер разыгрывают стратегию равноценных ответных действий. Поначалу ни один из них не идет на предательство, поэтому какое-то время все складывается хорошо. Затем, скажем, в 11-м раунде игры Флад по ошибке выбирает стратегию «предать» или останавливается на стратегии «сотрудничать», но Дрешер по ошибке считает, что Флад выбрал предательство. В любом случае Дрешер выберет в 12-м раунде ход «предать», но Флад выберет стратегию «сотрудничать», поскольку Дрешер выбрал сотрудничество в 11-м раунде. В 13-м раунде они поменяются ролями. Ситуация, когда один из игроков выберет сотрудничество, а другой – предательство, будет повторяться снова и снова до тех пор, пока очередная ошибка или заблуждение не восстановят сотрудничество между соперниками или не заставят каждого из них выбрать предательство.

Такие циклы или ответные удары часто наблюдаются во время реальных конфликтов между израильтянами и арабами на Ближнем Востоке, или между католиками и протестантами в Северной Ирландии, или между индусами и мусульманами в Индии. На границе между штатами Западная Вирджиния и Кентукки шла памятная вражда между Хэтфилдами и Маккоями. В художественной литературе тоже можно найти яркие примеры того, как такие действия могут привести к непрекращающемуся циклу ответных ударов, как в случае вражды между Грэнджерфордами и Шепердсонами в романе Марка Твена.

Да из-за чего же вышла ссора, Бак? Из-за земли?

– Я не знаю. Может быть.

– Ну а кто же первый стрелял? Грэнджерфорд или Шепердсон?

– Господи, ну почем я знаю! Ведь это так давно было.

– И никто не знает?

– Нет, папа, я думаю, знает, и еще кое-кто из стариков знает; они только не знают, из-за чего в самый первый раз началась ссора{54}.

Стратегия равноценных ответных действий не предполагает возможности остановить этот порочный круг. Она слишком ориентирована на возмездие и недостаточно стимулирует прощение. В следующих версиях соревнований, которые устраивал Роберт Аксельрод, предусматривалась возможность ошибок и заблуждений; в итоге другие, более бескорыстные, стратегии показали свое превосходство над стратегией равноценных ответных действий{55}.

Здесь мы можем научиться чему-то даже у обезьян. В ходе одного эксперимента с хохлатыми тамаринами одной из обезьян давали возможность потянуть рычаг, чтобы другая могла достать пищу. Однако для того, чтобы потянуть рычаг, следовало приложить усилие. Теоретически каждой обезьяне было бы выгоднее ничего не делать, пока партнер тянет рычаг. Но тамарины научились сотрудничать, чтобы избежать возмездия. Их сотрудничество сохранялось до тех пор, пока одна из обезьян два раза подряд не совершила предательство. Эта стратегия представляет собой разновидность стратегии «зуб за зуб», а именно – «два зуба за зуб»[34].

Более поздние эксперименты

Дилемма заключенных стала объектом тысяч экспериментов с участием разного числа игроков, с повторениями и с другой трактовкой условий игры. Вот некоторые важные выводы, сделанные в ходе этих экспериментов[35].

Первый и самый важный вывод состоит в том, что игроки выбирают стратегию сотрудничества достаточно часто, даже если два игрока попадают в одну пару только один раз. В среднем почти половина игроков отдают предпочтение сотрудничеству. Самое впечатляющее доказательство этого факта было получено в ходе проведения телевикторины Friend or Foe («Друг или враг») на канале Game Show Network. Командам из двух человек задавали достаточно простые вопросы. Деньги, полученные участниками за правильные ответы, уходили в «трастовый фонд»; за 105 эпизодов в таком фонде накапливалось от 200 до 16 400 долларов. Для того чтобы разделить эти деньги, двум участникам предстояло решить следующую дилемму.

Каждый игрок должен был написать на листе бумаги слово «друг» или «враг». Если оба написали «друг», деньги делились поровну. Если один игрок написал «враг», а другой – «друг», весь выигрыш получал тот, кто написал «враг». Но если оба игрока написали «враг», ни один из них не получал ничего. Что бы ни сделала другая сторона, каждый игрок мог получить минимум столько же, сколько его соперник (или даже больше), если бы он написал «враг», а не «друг». Тем не менее почти половина участников шоу писали слово «друг». Даже когда призовой фонд увеличивался, вероятность того, что игроки выберут сотрудничество, оставалась прежней. Люди были в равной степени готовы сотрудничать, когда на кону стояло три и пять тысяч долларов. К таким же выводам пришли в ходе исследований Феликс Оберхольцер-Джи, Джоэль Вальдфогель, Мэтью Уайт и Джон Лист[36].

Если вы сомневаетесь, можно ли считать телевизионное шоу научным исследованием, обратите внимание на следующий факт: участникам телевикторины выплатили более 700 тысяч долларов. У этого эксперимента с дилеммой заключенных оказалось самое лучшее финансирование за всю историю экспериментов такого рода. Кроме того, по результатам викторины было сделано много важных выводов. Оказалось, что женщины в большей степени готовы идти на сотрудничество, чем мужчины: 53,7 процента (в первом сезоне – 47,5 процента). В первом сезоне участники шоу не имели возможности увидеть результаты других состязаний перед тем, как принимать решение. А вот во втором сезоне были оглашены результаты первых 40 эпизодов, что позволяло увидеть закономерность. Участники шоу учились на опыте своих предшественников. Если команда состояла из двух женщин, коэффициент сотрудничества повышался до 55 процентов, а когда в состав команды входили одна женщина и один мужчина, этот коэффициент падал до 34,2 процента. У мужчин в этом случае коэффициент сотрудничества тоже снижался до 42,3 процента. В целом готовность участников шоу сотрудничать уменьшалась на десять пунктов.

Когда группу участников эксперимента несколько раз разбивают по парам, каждый раз формируя новые пары, число людей, которые выбирают сотрудничество, со временем сокращается. Тем не менее это число не сводится до нуля; вместо этого формируется небольшая группа участников эксперимента, неизменно отдающих предпочтение сотрудничеству.

Если одна и та же пара играет в базовую игру с дилеммой заключенных много раз подряд, в большинстве случаев образуется весьма значительная последовательность взаимного сотрудничества; это продолжается до тех пор, пока один из игроков уже в самом конце серии игр не выберет стратегию предательства. Именно это произошло в ходе первого эксперимента с дилеммой заключенных. Как только Меррил Флад и Мелвин Дрешер придумали эту игру, они предложили двум своим коллегам сыграть в нее 100 раз[37]. В 60 раундах игры оба участника выбрали стратегию сотрудничества. Длинный период взаимного сотрудничества продолжался с 83-го по 98-й раунд, пока в 99-м раунде один из игроков не выбрал стратегию предательства.

Если следовать строгой логике теории игр, то в действительности этого не должно было произойти. Если игра повторяется ровно 100 раз, она представляет собой серию игр с одновременными ходами, а значит, мы можем применить к ней логику обратных рассуждений. Определите, что произойдет в сотом раунде. Это последний раунд игры, поэтому предательство не может быть наказано в следующих раундах. В таком случае, согласно принципу доминирующей стратегии, оба игрока должны выбрать в последнем раунде стратегию предательства. Но как только принимается такое предположение, последним становится, по сути, 99-й раунд. Хотя игрокам предстоит еще один раунд, выбор стратегии предательства в 99-м раунде не может быть наказан в 100-м раунде, поскольку сделанный в этом раунде выбор предопределен. Следовательно, логика доминирующей стратегии применима и к 99-му раунду. Эти рассуждения можно продолжить до первого раунда. Однако в реальной игре, будь то в лаборатории или в реальном мире, игроки склонны игнорировать эту логику и пытаются извлечь выгоду из взаимного сотрудничества. Поведение, которое на первый взгляд может показаться иррациональным (отказ от доминирующей стратегии), оказывается правильным выбором при условии, что другие игроки ведут себя столь же иррационально.

Специалисты по теории игр предлагают следующее объяснение этого феномена. В этом мире есть люди, которые всегда поступают с другими так, как поступают с ними; такие люди готовы сотрудничать до тех пор, пока другие делают то же самое. Предположим, вы не принадлежите к числу этих достаточно милых людей. Если бы в игре с конечным числом повторений вы вели себя так, как того требует ваш тип личности, вы начали бы с обмана. Это раскрыло бы ваш характер другому игроку. Для того чтобы скрыть правду (хотя бы на какое-то время), вам придется вести себя достойно. Зачем вам делать это? Предположим, вы начнете игру, поступив порядочно. Если другой игрок не относится к тем, кто всегда платит той же монетой, он подумает, что вы, возможно, принадлежите к числу тех немногих людей, которых можно назвать порядочными. Временное сотрудничество может принести определенную выгоду, поэтому другой игрок, желая получить эту выгоду, попытается ответить на вашу порядочность тем же. Это пойдет на пользу и вам. Разумеется, при этом вы (так же, как и другой игрок) планируете перейти к стратегии предательства к концу игры. Тем не менее на начальном этапе игры вы оба можете поддерживать взаимовыгодное сотрудничество. Хотя каждый игрок ждет момента, когда удастся воспользоваться порядочностью другого, этот взаимный обман приносит пользу им обоим.

В ходе некоторых экспериментов вместо распределения испытуемых по парам и проведения серии игр с дилеммой заключенных организуется большая игра с участием всей группы. Мы хотим привести здесь особенно интересный и поучительный пример. Профессор Реймонд Батталио из Техасского сельскохозяйственно-машиностроительного университета организовал следующую игру с участием 27 студентов[38]. Все студенты, якобы владельцы гипотетических компаний, должны были решить (одновременно и независимо друг от друга, написав свое решение на листике бумаги), какой объем продукции будет выпускать их компании: 1, который поможет сохранить совокупное предложение на низком уровне, а цены – на высоком, или 2, который позволит получить дополнительный доход за счет других. В зависимости от числа студентов, которые выберут объем продукции 1, деньги будут выплачены им по следующей схеме:

Теория игр. Искусство стратегического мышления в бизнесе и жизни - Авинаш Диксит 11 стр.

Стратегия равноценных ответных действий

Более поздние эксперименты

Меню