Розділ «12. Чемні хлопці фінішують першими»

Егоїстичний ген

Але це лише один приклад. Чим більше про це замислюєшся, тим більше розумієш, що життя напрочуд багате на приклади повторюваної дилеми в’язня, і не лише людське, але й життя тварин та рослин також. Життя рослин? Так, чому б ні? Згадайте, що ми говоримо не про свідомі стратегії (хоча часом могли б), а про стратегії в «мейнардосмітівському» сенсі, тобто такі, що можуть бути наперед запрограмовані генами. Незабаром ми ще зустрінемось з рослинами, різноманітними тваринами та навіть бактеріями, які грають у повторювану дилему в’язня. А поки що детальніше розгляньмо, в чому полягає важливість повторення ходів.

Рис. B. Гра в знімання кліщів у птахів: виграші від різних результатів

На відміну від простої гри, доволі передбачуваної в тому сенсі, що єдиною раціональною стратегією є ЗРАДИТИ, повторювана версія пропонує широкий діапазон стратегій. У простій грі можливі лише дві стратегії: СПІВПРАЦЮВАТИ та ЗРАДИТИ. Однак повторення відкриває можливість для різноманітих стратегій, причому яка з них найкраща, аж ніяк не очевидно. Наступна стратегія, наприклад, є лише однією з тисяч можливих: «СПІВПРАЦЮВАТИ більшу частину часу, але у довільних 10 % раундів викидати ЗРАДИТИ». Або стратегії можуть бути обумовлені передісторією гри. Прикладом цього стає «злопам’ятний» гравець. Пам’ять у нього добра, і хоча зазвичай він схильний співпрацювати, він легко зраджує, якщо інший гравець колись зрадив його. Інші стратегії можуть бути більш вибачливими та мати коротшу пам’ять.

Вочевидь, стратегії, доступні у повторюваній грі, обмежуються лише нашою винахідливістю. Чи можемо ми виявити, яка з них найкраща? Саме таке завдання і поставив перед собою Аксельрод. У нього виникла цікава ідея влаштувати змагання, давши оголошення та попросивши експертів з теорії ігор представити свої стратегії. В цьому сенсі стратегії є наперед запрограмованими правилами дій, тому учасники змагання, відповідно, надіслали свої варіанти комп’ютерною мовою. Всього було представлено чотирнадцять стратегій. Для рівного рахунку Аксельрод додав до них п’ятнадцяту, назвавши її «випадковою», бо в ній СПІВПРАЦЮВАТИ та ЗРАДИТИ розігрувались абсолютно випадково, і яка виступала різновидом базової «антистратегії»: якщо якась стратегія не здатна перевершити «випадкову», то вона безумовно погана.

Аксельрод усі 15 стратегій однаково запрограмував, виставивши їх одну проти одної у великому комп’ютері. Кожна стратегія по черзі грала у повторювану дилему в’язня в парі з кожною іншою (включаючи копію самої себе). Оскільки стратегій було 15, в комп’ютері відбувались 15 × 15 == 225 окремих ігор. Після того, як кожна пара пройшла 200 раундів кожної гри, всі виграші були зведені разом і оголошено переможця.

Нас не цікавить, яка стратегія перемогла конкретного суперника. Головне — яка стратегія зібрала найбільше «грошей», отриманих в сумі за результатами усіх її 15 ігор. Під «грошима» тут маються на увазі «очки», присуджені за такою схемою: взаємна співпраця — 3 очки; спокуса зрадити — 5 очок; покарання за взаємну зраду — 1 очко (еквівалент невеликого штрафу в розглянутій раніше грі); виграш «простака» — 0 очок (еквівалент великого штрафу в розглянутій раніше грі).

Рис. C. Комп’ютерний турнір Аксельрода: виграші від різних результатів

Максимально можливий виграш, який могла би отримати будь-яка стратегія, складав 15000 очок (200 раундів по 5 очок за раунд для кожного з 15 суперників). Мінімально можливий виграш складав 0 очок. Годі й казати, що жоден із цих двох крайніх варіантів не був реалізований. Найбільший середній виграш, на який реально сподіватися тій чи іншій стратегії в одній із її 15 ігор, не може бути набагато більшим за 600 очок. Саме стільки отримає кожен із двох гравців, якщо вони обидва весь час співпрацюватимуть, заробляючи по 3 очки за кожен із 200 раундів гри. Якщо один із них піддасться спокусі і зрадить, це дуже ймовірно закінчиться меншою кількістю очок, ніж 600, через помсту іншого гравця (в більшості представлених стратегій був вбудований певний різновид покаральної поведінки). Ми можемо використовувати 600 очок як певну базу для кожної гри, представляючи всі виграші як відсоток від неї. За такою шкалою теоретично можливо набрати 166 відсотків (1000 очок), але на практиці середній виграш жодної стратегії не перевищував 600 очок.

Не забувайте, що «гравцями» у цьому турнірі були не люди, а комп’ютерні програми, запрограмовані стратегії. Їхні автори-люди виконували ту саму роль, що й гени, які програмують організми (згадайте комп’ютерні шахи та андромедянський комп’ютер із 4-го розділу). Ці стратегії можна вважати мініатюрними «довіреними особами» їхніх авторів. По суті, один автор міг запропонувати більше однієї стратегії (хоча було б шахрайством — і Аксельрод навряд чи на це пристав — якби якийсь автор «завалив» усе змагання стратегіями, одна з яких скористалась би жертовною співпрацею з боку інших).

Запропонували декілька дуже оригінальних стратегій, хоча вони були, звичайно, значно менш оригінальними, ніж їхні автори. Цікаво, що переможною стала саме найпростіша стратегія, на перший погляд, найменш оригінальна з усіх. Вона називалась «око за око» й була представлена професором Анатолем Рапопортом, відомим психологом та теоретиком ігор з Торонто. «Око за око» починається співпрацею на першому ході, після чого лише копіює попередній хід іншого гравця.

Як може відбуватитися гра, що включає в себе стратегію «око за око»? Як і завжди, все залежить від іншого гравця. Насамперед уявімо, що інший гравець теж використовує «око за око» (пам’ятайте, що крім інших 14, кожна стратегія грає також і проти копії самої себе). Обидві стратегії починають свої ходи зі співпраці. На наступному ж ході кожен гравець копіює попередній хід суперника, яким було СПІВПРАЦЮВАТИ. Обидва продовжують викидати СПІВПРАЦЮВАТИ до самого кінця гри і обидва отримують в результаті всі 100 % «базового» виграшу в 600 очок.

Тепер припустімо, що «око за око» грає проти стратегії під назвою «наївний випробовувач». Насправді ця стратегія не входила до влаштованого Аксельродом змагання, але, зрештою, вона доволі повчальна. За своєю суттю вона ідентична стратегії «око за око», крім того моменту, що іноді (скажімо, раз на десять ходів) вона необґрунтовано викидає зраду та вимагає виграш за спокусу. Поки «наївний випробовувач» не випробує одну з його зрад, обидва гравці начебто дотримуються стратегії «око за око». Здається, що довга та взаємовигідна послідовність співпраці й далі впливатиме на перебіг гри, в результаті якої обидва гравці отримують зручний виграш у 100 % бази. Але раптом, без попередження, десь на восьмому ході, «наївний випробовувач» розігрує зраду. «Око за око», звичайно, розігрує на цьому ході СПІВПРАЦЮВАТИ, а тому одразу ж починає відставати, отримавши виграш «простака» в 0 очок. Складається враження, що в «наївного випробовувача» все добре, оскільки він отримав за цей хід 5 очок. Але наступним ходом «око за око» «мститься». Ця стратегія розігрує ЗРАДИТИ, просто дотримуючись свого правила повторювати попередній хід суперника. «Наївний випробовувач» тим часом, сліпо дотримуючись свого власного внутрішнього правила копіювання, копіює хід свого суперника СПІВПРАЦЮВАТИ. Тому тепер він записує на свій рахунок виграш «простака» в 0 очок, тоді як «око за око» отримує високий виграш у 5 очок. Наступним ходом «наївний випробовувач» — доволі несправедливо, як це може виглядати, «помщається» за зраду стратегії «око за око». А тому чергування триває. Під час цих почергових розіграшів обидва гравці отримують в середньому по 2,5 очки за раунд (середнє значення між 5 та 0). Це нижче, ніж стабільні 3 очки за раунд, які обидва гравці можуть мати, розігруючи взаємну співпрацю (і, до речі, це причина «додаткової умови», залишеної без пояснення в 9-му розділі). Отже, коли «наївний випробовувач» грає проти «око за око», обидві стратегії виграють менше, ніж коли «око за око» грає проти іншої стратегії «око за око». Проте, коли «наївний випробовувач» грає проти іншого «наївного випробовувача», вони обидва зазвичай виграють ще менше, оскільки серія взаємної зради має тенденцію починатися раніше.

Тепер розглянемо іншу стратегію під назвою «вибачливий випробовувач». Вона схожа на «наївного випробовувача», за винятком того, що вдається до активних дій для розірвання серії почергової помсти. Для цього потрібно мати трохи довшу «пам’ять», ніж для стратегій «око за око» чи «наївний випробовувач». «Вибачливий випробовувач» запам’ятовує, чи була зрада лише спонтанною, а також, чи був цей результат негайною помстою. Якщо так, він «вибачливо» надає своєму суперникові право на «один безкоштовний удар», не вдаючись до помсти. Це означає, що серія взаємної помсти припиняється ще на початку. Якщо тепер продовжити уявну гру між стратегіями «вибачливий випробовувач» та «око за око», то виявиться, що серії потенційної взаємної помсти негайно кладеться край. Більша частина гри минає у взаємній співпраці, до того ж обидва гравці раз-по-раз отримують втіху від великого виграша. Стратегія «вибачливий випробовувач» ефективніша проти «ока за око», ніж «наївний випробовувач», хоча й не так, як «око за око» проти самої себе.

Деякі зі стратегій, включених до турніру Аксельрода, були значно більш витонченішими, ніж «вибачливий випробовувач» або «наївний випробовувач», але вони теж, загалом, приносили меншу кількість очок, ніж проста «око за око». По суті, найменш успішною з усіх стратегій (за винятком «випадкової») виявилась найскладніша. Ім’я її автора не було вказане, що стало приводом для улесливих здогадок. Хто її представив? Якийсь «сірий кардинал» із Пентагона? Голова ЦРУ? Генрі Кіссинджер? Сам Аксельрод? Гадаю, ми цього ніколи не дізнаємось.

Загалом же вивчати деталі всіх представлених конкретних стратегій не дуже цікаво. Ця книга не про винахідливість комп’ютерних програмістів. Значно цікавіше розподілити ці стратегії за певними категоріями та розглянути уважніше успіх цих ширших розділів. Найважливішою категорією, яку розрізняє Аксельрод, є «чемні». Чемна стратегія визначається як така, що ніколи не зраджує першою. Прикладом є «око за око». Вона здатна на зраду, але використовує її лише як відплату. Обидві стратегії «наївний випробовувач» та «вибачливий випробовувач» відносяться до «підступних», бо іноді зраджують (хоча й рідко), коли їх на це не провокують. Із 15 стратегій, включених до турніру, «чемними» були 8. Примітно, що ці ж самі 8 «чемних» стратегій і набрали найбільшу кількість очок, залишивши 7 «підступних» далеко позаду. «Око за око» отримала в середньому 504,5 очки — 84 % нашої бази в 600 очок та дуже непоганий виграш. Інші ж «чемні» стратегії набрали лише трохи менше, в діапазоні виграшів від 83,4 до 78,6 %. Чималеньке випередження від 66,8 %, набраних стратегією «Грааскамп», найуспішнішою з усіх «підступних»! Здається доволі переконливим, що чемні хлопці в цій грі почуваються добре.

Ще однією з технічних категорій Аксельрода є «вибачливі». «Вибачлива» стратегія, хоч і здатна віддячити тим самим, має коротку пам’ять. Вона швидко забуває старі образи. Стратегія «око за око» належить саме до таких. Вона негайно дає зраднику по руках, але після цього залишає минуле в минулому. «Злопам’ятний» з 10-го розділу ніколи не прощає. Його пам’яті вистачає на всю гру. Він ніколи не забуває помститися гравцеві, який його зрадив, навіть якщо це трапилося лише раз. До турніру Аксельрода була включена ідентична «злопам’ятному» за своєю формою стратегія під назвою «Фрідман», яка особливого успіху не досягла. З усіх «чемних» (зверніть увагу, що вона «чемна» лише з технічного погляду, хоча зовсім не «вибачлива»), стратегія «злопам’ятний»/«Фрідман» була другою з кінця. Причина такого низького результату «невибачливих» стратегій полягає в тому, що вони не можуть розірвати серію взаємної помсти, навіть коли їхнім суперником є «вибачливий».

Бувають іще більш «вибачливі» стратегії, ніж «око за око». Наприклад, «око за два ока» дозволяє своїм суперникам дві зради поспіль, поки врешті не помщається. Така стратегія може виглядати надто легковірною та шляхетною. Проте Аксельрод з’ясував, що якби тільки хтось представив на турнір «око за два ока», то виграв би. І насамперед тому, що вона так добре уникає серій взаємної помсти.

Отже, ми визначили дві характеристики переможних стратегій: чемність та прощення. Це майже утопічне переконання — що чемність та прощення можуть бути вигідними — стало сюрпризом для багатьох експертів, які намагались якось схитрувати, представивши витончено підступні стратегії, коли навіть ті, хто презентував «чемні» стратегії, не наважився на щось аж таке «вибачливе», як «око за два ока».

Незабаром Аксельрод оголосив про проведення другого турніру. Він отримав 62 пропозиції і знову додав до них свою «випадкову» стратегію, так що всього їх стало 63. Цього разу точна кількість ходів на одну гру не була зафіксована на 200, а залишалась необмеженою з вагомої причини, про яку згодом. Однак виграші все ще можна було подати як відсоток від «бази» (виграшу від постійної співпраці), навіть попри те, що ця база потребувала складнішого розрахунку та більше не становила фіксовані 600 очок.

У другому турнірі всім програмістам повідомили результати першого, включаючи аналіз Аксельрода, через що «око за око» та інші «чемні» і «вибачливі» стратегії мали такий успіх. Передбачалося, що суперники так чи інакше візьмуть цю довідкову інформацію до уваги. По суті, вони поділилися на дві групи прихильників різних поглядів. Одні вважали, що чемність та прощення є очевидно переможними якостями, а тому представили на турнір «чемні» і «вибачливі» стратегії. Джон Мейнард Сміт зазіхнув ще далі, бо представив украй «вибачливу» стратегію «око за два ока». Представники ж іншої групи розраховували на те, що багато їхніх колег, прочитавши аналіз Аксельрода, тепер представлять «чемні», «вибачливі» стратегії. Тому вони представили «підступні» стратегії, намагаючись експлуатувати заздалегідь визнаних слабаків!

Сторінки


В нашій електронній бібліотеці ви можете безкоштовно і без реєстрації прочитати «Егоїстичний ген» автора Докінз Клінтон Річард на телефоні, Android, iPhone, iPads. Зараз ви знаходитесь в розділі „12. Чемні хлопці фінішують першими“ на сторінці 2. Приємного читання.

Запит на курсову/дипломну

Шукаєте де можна замовити написання дипломної/курсової роботи? Зробіть запит та ми оцінимо вартість і строки виконання роботи.

Введіть ваш номер телефону для зв'язку, в форматі 0505554433
Введіть тут тему своєї роботи