Суть теории вероятности можно уяснить из следующих простых фактов[90]. Никто не может точно предсказать, какой стороной вверх упадет подброшенная монетка. Даже если десять раз подряд выпадала решка, это ни на йоту не поможет нам точно предсказать, что выпадет в следующий раз. Однако мы можем совершенно точно предсказать, что если бросить монетку десять миллионов раз, то с очень небольшими отклонениями в половине случаев выпадет орел, а в половине – решка. Более того, в конце XIX статистик Карл Пирсон, набравшись терпения, подбросил монетку 24 000 раз. Решка выпала в 12 012 случаев. В некотором смысле теория вероятности к этому и сводится. Теория вероятности снабжает нас точной информацией о том, как будет выглядеть совокупность результатов большого количества экспериментов, но никогда не предсказывает результат какого-то одного конкретного эксперимента[91]. Если эксперимент может дать n возможных результатов, причем шансы получить каждый из них равны, то вероятность каждого результата равна 1/n. Если бросить кость, не жульничая, то вероятность получить число 4 равна 1/6, поскольку у игральной кости шесть сторон и шансы на то, что выпадет та или иная из них, равны. Представьте себе, что вы бросили кость семь раз подряд и каждый раз получали 4 – какова вероятность получить 4 в результате следующего броска? Теория вероятности дает на это четкий и ясный ответ: вероятность по-прежнему равна 1/6, потому что кость ничего не помнит и все разговоры о «счастливой звезде» и о том, что следующий бросок возместит прежний перекос, не более чем мифы. А правда состоит в том, что если бросить кость миллион раз, результаты выровняются по средним значениям, и 4 будет выпадать почти точно в 1/6 части случаев.
Рассмотрим несколько более сложную ситуацию. Предположим, вы одновременно бросаете три монеты. Какова вероятность получить две решки и одного орла? Ответ мы получим, если переберем все возможные варианты. Обозначим орлов О, а решки Р и получим восемь возможных вариантов: РРР, РРО, РОР, РОО, ОРР, ОРО, ООР и ООО. Легко убедиться, что варианту «две решки, один орел» соответствует три комбинации. Следовательно, вероятность этого события 3/8. А в общем виде, если из n результатов с равными шансами m соответствуют событию, которое вас интересует, то вероятность такого составляет m/n. Обратите внимание, что это значит, что вероятность принимает значения от 0 до 1. Если интересующее вас событие не может произойти, то m = 0 (никакой результат ему не соответствует) и вероятность равна нулю. Если же событие произойдет совершенно точно, значит, ему соответствуют все n результатов (m = n) и вероятность попросту составляет n/n = 1. Результаты броска трех монет свидетельствуют и еще об одной существенной особенности теории вероятностей: если у вас есть несколько событий, полностью независимых друг от друга, то вероятность, что произойдут они все, – это произведение отдельных вероятностей. Например, вероятность получить три орла равна 1/8, что равно произведению трех вероятностей получить орла на каждой из трех монет: 1/2 × 1/2 × 1/2 = 1/8.
Ладно, подумаете вы, но где можно применять эти фундаментальные понятия теории вероятностей? Разве что в казино или во время других азартных игр? Представьте себе, эти незначительные на первый взгляд законы теории вероятностей лежат в основе современных генетических исследований – изучения наследования биологических характеристик.
Теорию вероятности свел с генетикой один моравский священник[92]. Грегор Мендель (1822–1884) родился в деревне близ границы между Моравией и Силезией (нынешняя деревня Хинчице в Чешской республике). Приняв постриг в августинском монастыре Св. Фомы в Брно, Мендель изучал зоологию, ботанику, физику и химию в Венском университете. Вернувшись в Брно, он начал деятельно экспериментировать с душистым горошком при всевозможной поддержке настоятеля монастыря.
Объектом исследования Мендель выбрал именно душистый горошек, поскольку его легко выращивать, а также потому, что у растения есть и мужские, и женские органы размножения. Следовательно, растения душистого горошка могут размножаться и самоопылением, и скрещиванием с другим растением. При скрещивании растений, которые дают только зеленые зерна, с растениями, которые дают только желтые зерна, Мендель получил на первый взгляд какие-то странные результаты (рис. 34). У растений первого поколения зерна были только желтые. Однако во втором поколении соотношение желтых и зеленых зерен всегда составляло 3:1! Это неожиданное открытие дало Менделю возможность сделать три вывода, ставшие важнейшими вехами становления генетики.
1. Наследование той или иной черты предполагает передачу неких «факторов» (сегодня мы зовем их генами) от родителей потомству.
2. Каждый потомок наследует от каждого родителя по одному такому «фактору» (для каждой отдельной черты).
3. Отдельная черта может не проявиться у потомка, однако передаться следующему поколению.
Но как же объяснить количественные результаты опытов Менделя? Мендель утверждал, что у каждого растения-родителя должно быть два идентичных «фактора» (сегодня мы назвали бы их аллелями – вариантами гена), либо два желтых, либо два зеленых (как на рис. 35). При скрещивании каждый потомок наследует две разные аллели, по одной от каждого родителя (согласно вышеприведенному правилу 2). То есть каждое зерно потомка содержит желтую аллель и зеленую аллель. Почему же тогда в этом поколении все зерна желтые? Мендель объяснил, что желтый – доминирующий цвет и он маскирует присутствие в этом поколении зеленой аллели (правило 3). Однако (опять же в соответствии с правилом 3) доминантный желтый не мешает рецессивному зеленому передаваться следующему поколению. В следующем туре скрещивания каждое растение, содержащее одну желтую и одну зеленую аллель, опыляется другим растением, содержащим ту же комбинацию аллелей. Поскольку потомство содержит по одной аллели от каждого родителя, зерна следующего поколения могут содержать следующие комбинации (рис. 35): зеленая – зеленая, зеленая – желтая, желтая – зеленая или желтая – желтая. Все зерна с желтой аллелью становятся желтыми, потому что желтый цвет – доминантный.
Рис. 34
Рис. 35
Следовательно, поскольку у всех комбинаций равные шансы на возникновение, отношение желтых зерен к зеленым должно составлять 3:1.
Вы, возможно, заметили, что весь эксперимент Менделя, в сущности, ничем не отличается от эксперимента по бросанию двух монет. Назовем зеленые аллели орлами, а желтые – решками и зададимся вопросом, какая доля зерен будет желтой (с учетом того, что доминантная желтая аллель определяет цвет зерен), – и это будет то же самое, что спрашивать о вероятности получить по крайней мере одну решку при бросании двух монет. Очевидно, вероятность равна ¾, поскольку решка есть в трех из возможных четырех результатов (решка – решка, решка – орел, орел – решка, орел – орел). Это значит, что соотношение количества бросков, где получается по крайней мере одна решка, к количеству бросков, где нет ни одной решки, в конечном итоге приблизится к 3:1, как в экспериментах Менделя.
Хотя Мендель опубликовал статью «Опыты по гибридизации растений» в 1865 году (и выступил с докладами на двух научных конференциях), его открытия остались незамеченными – и были обнаружены лишь в начале ХХ века[93]. Точность полученных результатов вызывала некоторые сомнения, но, тем не менее, Менделя считают основоположником математического подхода к современной генетике (см., например, Fisher 1936). Авторитетный английский статистик Рональд Эйлмер Фишер (1890–1962) по следам Менделя заложил фундамент популяционной генетики, отрасли математики, которая занимается распределением генов в популяции и расчетами изменения частотности генов со времени[94]. Сегодня генетики опираются на статистические выборки в сочетании с исследованиями ДНК для прогнозирования возможных характеристик еще не рожденного потомства.
Но все же – как связаны статистика и вероятность?
Факты и прогнозы
Стремясь разобраться в эволюции Вселенной, ученые обычно подходят к этой проблеме с обеих сторон. Одни начинают с тончайших колебаний ткани мироздания в первичной Вселенной, другие изучают все подробности нынешнего состояния Вселенной. Первые разрабатывают масштабные компьютерные модели, которые показывают, как Вселенная развивалась с течением времени. Вторые занимаются детективной работой – пытаются дедуктивно вычислить прошлое Вселенной по множеству характеристик ее нынешнего состояния. Примерно таковы и отношения между теорией вероятности и статистикой. В теории вероятности заданы переменные и первоначальное состояние, и ее цель – предсказать наиболее вероятный конечный результат. В статистике известен результат, но не определены причины, которые к нему привели.
Рассмотрим простой пример того, как эти две области встречаются, так сказать, посередине и дополняют друг друга. Начнем с того факта, что статистические исследования показывают, что измерения самых разных физических величин и даже человеческих черт распределяются согласно кривой нормального распределения. Но на самом деле кривая нормального распределения – это не какая-то одна кривая, а целое семейство кривых, описываемых одной и той же общей функцией, и все они полностью характеризуются всего двумя математическими величинами. Первая из них – среднее значение – это центральное значение, относительно которого распределение симметрично. Эта величина зависит, разумеется, от того, какую именно переменную измеряют (рост, вес, IQ и так далее). Среднее значение одной и той же переменной может быть разным в разных популяциях. Например, средний рост шведов, скорее всего, отличается от среднего роста перуанцев. Вторая величина, определяющая кривую нормального распределения, называется стандартным отклонением. Это мера того, насколько тесно данные сосредоточены вокруг среднего значения. На рис. 36 у кривой нормального распределения (а) самое большое стандартное отклонение, поскольку значения рассеяны шире. Однако тут мы сталкиваемся с интересным фактом. Если с помощью интегрирования сосчитать площадь под кривой, легко математически доказать, что независимо от среднего значения и величины стандартного отклонения, 68,2 % измерений лежат в области, ограниченной одним стандартным отклонением по обе стороны от среднего значения (рис. 37). Иначе говоря, если среднее значение IQ в определенной (крупной) популяции равно 100, а стандартное отклонение равно 15, то 68,2 % людей в этой популяции обладают IQ между 85 и 115. Более того, для всех кривых нормального распределения 95,4 % всех случаев лежат в пределах двух стандартных отклонений от среднего, а 99,7 % данных попадают в пределы трех стандартных отклонений по обе стороны от среднего (рис. 37). Из этого следует, что в вышеприведенном примере 95,4 % популяции обладают IQ между 70 и 130, а 99,7 % – между 55 и 145.
Теперь предположим, что мы хотим предсказать, какова вероятность, что у случайно выбранного человека из этой популяции IQ окажется между 85 и 100. Рис. 37 подсказывает нам, что эта вероятность – 0,341 (или 34,1 %), поскольку по законам теории вероятности вероятность – это количество желаемых результатов, деленное на общее количество возможностей. А если нам интересно выяснить, какова вероятность, что кто-то (случайно выбранный) из этой популяции обладает IQ выше 130, то взгляд на рис. 37 покажет, что эта вероятность равна примерно 0,022, то есть 2,2 %. Примерно так же, опираясь на свойства нормального распределения и на метод интегрального исчисления (для вычисления площади под кривой), можно вычислить вероятность, что значение IQ попадет в тот или иной заданный диапазон. Иными словами, ответы нам дают теория вероятности и ее половинка-помощница статистика – в сочетании.
Как я уже не раз подчеркивал, вероятность и статистика обретают смысл, если имеешь дело с большим количеством событий, но не с отдельными событиями. Этой фундаментальной оговоркой, известной как закон больших чисел, мы обязаны Якобу Бернулли, который сформулировал ее в виде теоремы в своей книге «Ars Conjectandi» («Искусство предположений»; на рис. 38 приведен титульный лист)[95]. В переводе на обыденный язык теорема гласит, что если вероятность, что событие случится, равна p, то p – это самое вероятное соотношение количества случаев, когда это событие происходит, к общему числу попыток. Если же общее число попыток приближается к бесконечности, то доля успешных попыток становится в точности равна p. Вот как Бернулли формулирует закон больших чисел в «Искусстве предположений»: «Еще предстоит выяснить, увеличиваем ли мы при увеличении числа наблюдений и вероятность, что регистрируемое соотношение желаемых случаев к нежелательным приблизится к подлинному значению, и тогда эта вероятность в конце концов превзойдет всякую желаемую точность». Затем он пояснил это на конкретном примере[96].
Рис. 36
Рис. 37
У нас есть урна с 3000 белых и 2000 черных камешков, и мы хотим эмпирически определить соотношение количества белых и черных камешков – а мы его не знаем, – доставая из урны по одному камешку и записывая, когда нам попадается белый камешек, а когда черный (напоминаю, что при этом процессе должно соблюдаться важное требование: каждый камешек, отметив его цвет, следует положить обратно в урну и лишь затем доставать следующий, чтобы количество камешков оставалось постоянным). А теперь мы спрашиваем, возможно ли, увеличив число попыток, добиться, чтобы стало в 10, 100, 1000 раз вероятнее (а в конечном итоге прийти к «совершенной уверенности»), что соотношение количества извлечений белого камешка к количеству извлечений черного камешка приобретет точно такое же значение (3:2), что и подлинное соотношение черных и белых камешков в урне, а не какое-то другое значение? Если ответ отрицательный, то я признаю, что наша попытка оценить посредством наблюдения соотношение результатов в каждом конкретном случае (например, соотношение количества белых и черных камешков) обречена на провал. Но если это так, то мы наконец-то можем при помощи этого метода приблизиться к совершенной уверенности [в следующей главе «Искусства предположений» Якоб Бернулли доказывает, что так и есть] … и мы можем определять количество случаев a posteriori почти с той же огромной точностью, как если бы оно было известно нам a priori.
Рис. 38
Оттачиванию этой теоремы Бернулли посвятил двадцать лет, и она стала с тех пор одним из столпов статистики. В заключение он отметил, что убежден в существовании законов, которые управляют всем, – даже в тех областях, которые на первый взгляд представляются случайными.
Если бы удалось непрерывно пронаблюдать все события с этой минуты и на протяжении вечности (посредством чего вероятность превратилась бы в конечном итоге в уверенность), оказалось бы, что все в мире, даже то, что кажется нам совершенно случайным, происходит по определенным причинам и в определенном соответствии с законом, и что мы, следовательно, вынуждены предположить наличие определенной необходимости – если угодно, предопределения. Насколько я знаю, именно это имел в виду Платон, когда выдвигал доктрину вселенской цикличности и утверждал, что по истечении бесчисленных веков все вернется к первоначальному состоянию.
Мораль этой истории о науке неопределенности очень проста: можно применить математику даже к относительно «ненаучным» областям нашей жизни, в том числе и к тем, которые, как нам кажется, управляются чистой случайностью. Поэтому при попытках объяснить «непостижимую эффективность» математики мы не можем ограничиваться в дискуссии одними лишь законами физики. Рано или поздно нам все равно придется разбираться, что делает математику столь вездесущей.
Невероятное могущество математики не ускользнуло и от знаменитого драматурга и эссеиста Джорджа Бернарда Шоу (1856–1950). Несмотря на то, что прославился он отнюдь не математическими достижениями, Шоу написал очень глубокую статью о статистике и теории вероятности под названием «Напасть игры и благодать страховки» («The Vice of Gambling and the Virtue of Insurance»)[97]. В этой статье Шоу признает, что в его глазах страховка «основана на фактах, которые невозможно объяснить, и на рисках, которые способны вычислить лишь профессиональные математики». Однако далее он делает следующее проницательное замечание.
А теперь представьте себе деловую беседу между купцом, который жаждет торговать за границей, но отчаянно боится потерпеть кораблекрушение или быть сожранным дикарями, и шкипером, который жаждет заполучить грузы и пассажиров. Капитан уверяет купца, что его товары в полнейшей безопасности, как и он сам, буде он пожелает их сопровождать. Однако купец, голова у которого забита приключениями Ионы, Св. Павла, Одиссея и Робинзона Крузо, на это не отваживается. Разговор у них пойдет примерно так.
Капитан: В путь! Спорим на целую гору фунтов, что если ты поплывешь со мною, то в этот же день через год будешь жив и здоров!
Купец: Но если я приму эти условия, то должен буду поспорить с тобой на ту же сумму, что в течение года погибну.
Капитан: Почему бы и нет, если ты все равно наверняка проиграешь?
Купец: Но если я потону, то и ты потонешь, и что тогда станется с нашим спором?
Капитан: И то верно. Тогда я найду тебе какого-нибудь сухопутного жителя, который заключит этот спор с твоей женой и домочадцами.