Хотя положение в большей части современного мира по сравнению с печальной статистикой Галлея заметно улучшилось, к сожалению, так обстоят дела не во всех странах. Например, в Замбии уровень смертности детей до пяти лет в 2006 году достиг чудовищной цифры в 182 смерти на 1000 живых новорожденных. И ожидаемая продолжительность жизни в Замбии так низка, что сердце сжимается: всего тридцать семь лет.
Однако статистика занимается не только смертями. Она проникает во все аспекты человеческой жизни – от чисто физических черт до плодов интеллектуального труда. То, что статистика, потенциально способна порождать «законы» для общественных наук, первым понял бельгийский ученый-энциклопедист Ламбер-Адольф-Жак Кетле (1796–1874). Именно ему мы и обязаны введением общестатистического понятия «среднего человека».
Средний человек
Адольф Кетле родился 22 февраля 1796 года в древнем бельгийском городе Генте[86]. Его отец, городской чиновник, умер, когда Адольфу было всего семь лет. Кетле был вынужден сам зарабатывать себе на жизнь и уже в 17 лет стал преподавать математику. В свободные от учительских обязанностей время он сочинял стихи, написал либретто оперы, поучаствовал в создании двух пьес и перевел несколько художественных произведений. При всем при том его любимым предметом осталась математика, и он первым закончил Гентский университет со степенью доктора наук. В 1820 году Кетле был избран членом Королевской академии наук в Брюсселе и вскоре стал принимать активнейшее участие в ее деятельности. Следующие несколько лет были посвящены в основном преподаванию и публикации нескольких трактатов по математике, физике и астрономии.
Первую лекцию по истории науки Кетле обычно начинал следующим глубоким наблюдением: «Чем сильнее развиваются науки, тем дальше они вступают в сферу влияния математики, которая становится словно бы центром, к которому они стягиваются. О том, какого совершенства достигла та или иная наука, можно судить по тому, с какой легкостью ее результаты можно получить путем вычисления».
В декабре 1823 года Кетле за государственный счет направили в Париж, в основном для изучения наблюдательных методов астрономии. Однако оказалось, что трехмесячный визит в тогдашнюю математическую столицу мира направил Кетле в совершенно другую сторону – к изучению теории вероятности. А пламенный интерес к этой теме разжег у Кетле не кто-нибудь, а сам Лаплас. Впоследствии Кетле так писал о своем опыте работы в статистике и теории вероятности (Quetelet 1828).
Случай – это таинственное слово, которое так часто употребляют не к месту – нужно понимать лишь как прикрытие для невежества, это фантом, захвативший абсолютную власть над заурядным умом, привыкшим рассматривать события исключительно в изолированном виде, но рассыпающийся в прах перед философом, чей кругозор охватывает длинную череду событий и чья проницательность не отвлекается на мелкие отклонения, которые исчезают, стоит ему встать на нужную точку зрения и распознать законы природы.
Трудно переоценить значение этого вывода. В сущности, Кетле отрицает роль случая и заменяет его смелым, хотя и не вполне доказанным, предположением, что причины есть даже у общественных феноменов и что закономерности, проявляющиеся в статистических результатах, можно использовать для выявления законов, лежащих в основе общественного порядка.
В попытке проверить свой статистический подход Кетле отважился на масштабное начинание – стал собирать коллекцию из тысяч измерений различных параметров человеческого тела. Например, он изучал распределение обхвата груди 5738 шотландских солдат и рост 100 000 французских призывников, отдельно прослеживая частоту, с которой встречается каждая человеческая черта. Иначе говоря, он графически выразил, сколько призывников имеют рост, скажем, от пяти футов до пяти футов двух дюймов, сколько – от пяти футов двух дюймов до пяти футов четырех дюймов и т. д. В дальнейшем он построил подобные кривые даже и для «моральных», по его выражению, черт, для которых удалось набрать достаточно данных. В число этих качеств входили самоубийства, браки и склонность к правонарушениям. К своему изумлению, Кетле обнаружил, что все человеческие характеристики следовали так называемому нормальному распределению частоты в виде колокольчика (рис. 33). Эту линию также не вполне заслуженно называют гауссианой в честь «князя математики» Карла Фридриха Гаусса. Что бы ни измерял Кетле – рост, вес, длину конечностей и даже интеллектуальные качества, определяемые лучшими на тот момент психологическими тестами, – у него раз за разом получалась одна и та же кривая. Для Кетле она была не в новинку: математики и физики знали ее, еще начиная с середины XVIII века, и Кетле был с ней знаком еще по астрономическим наблюдениям, так что некоторой неожиданностью для него стала лишь связь этой кривой с чертами и качествами человека. Раньше эту кривую называли кривой ошибок, поскольку она появлялась при исследовании всякого рода ошибок и погрешностей в измерениях.
Рис. 33
Представьте себе, например, что вам хочется очень точно измерить температуру жидкости в сосуде. Можно взять точнейший термометр и на протяжении часа сделать тысячу последовательных измерений. Окажется, что из-за случайных ошибок, а может быть, и некоторых колебаний температуры не все результаты будут одинаковы. Скорее, все результаты скопятся вокруг какого-то центрального значения, но иногда температура окажется чуть выше, иногда чуть ниже. Если записать, сколько раз среди измерений встретилось то или иное значение, получится та самая кривая в виде колокольчика, которая, как выяснил Кетле, также описывает черты и качества человека. Более того, чем больше измерений той или иной физической величины будет проделано, тем точнее полученное распределение частот приблизится к нормальной кривой. Непосредственный вывод, который напрашивается из этого при ответе на вопрос о непостижимой эффективности математики, сам по себе поразителен: оказывается, строгим математическим законам подчиняются даже человеческие ошибки!
Кетле сделал и более смелые выводы. Он решил, что если черты и качества человека описываются кривой ошибок, значит, «средний человек» – это тип, который природа стремится породить[87]. По мысли Кетле, подобно тому, как при производстве гвоздей погрешности изготовления приводят к некоему распределению колебаний длины гвоздя возле средней (правильной) длины, ошибки природы распределены вокруг некоего предпочтительного биологического типа. Кетле объявил, что представители одного народа стремятся к какому-то среднему показателю, «словно результаты измерений одного и того же человека при помощи инструментов, грубость которых объясняла бы разброс отклонений».
Очевидно, это было все же слишком смелое обобщение. Конечно, Кетле открыл, что биологические характеристики, и физические, и психологические, распределяются по нормальной кривой частот, и это было необычайно важное открытие, однако нельзя ни считать его доказательством намерений матери-природы, ни рассматривать отдельные вариации просто как ошибки. Скажем, Кетле обнаружил, что средний рост французских призывников составляет пять футов четыре дюйма. Однако на левом конце кривой он обнаружил человека ростом в один фут пять дюймов. Очевидно, нельзя списывать это на ошибку в четыре фута, допущенную при измерении роста в пять футов четыре дюйма.
Даже если пренебречь идеей «законов», которые определяют создание людей по одному шаблону, уже одно то, что распределение самых разных свойств – от веса до IQ – следует одной и той же нормальной кривой, само по себе примечательно. Но этого мало – даже распределение среднего уровня успешных подач в высшей бейсбольной лиге и то более или менее нормально, равно как и доходность фондовых индексов (которые составляются из множества отдельных фондов). Более того, если распределение отклоняется от нормальной кривой, его, как правило, надо основательно проверить. Например, если распределение оценок по английскому языку в какой-то школе отличается от нормального, это наводит на мысль о проверке принятых там правил выставления оценок. Однако это не означает, что все распределения нормальны. Распределение длин слов, которые Шекспир употреблял в своих пьесах, не нормально. Слов из трех-четырех букв у него гораздо больше, чем слов из одиннадцати-двенадцати букв. Среднегодовой доход на семью в США тоже распределяется не в соответствии с нормальной кривой. Например, в 2006 году самые богатые 6,37 % домохозяйств получали примерно треть всего дохода. Это наталкивает на интересный вопрос: если и физические, и интеллектуальные качества людей (определяющие, надо думать, потенциальные способности получать доход) подчиняются нормальному распределению, почему с доходом все иначе? Ответы на подобные социально-экономические вопросы, к сожалению, выходят за рамки этой книги. С нашей нынешней – несколько ограниченной – точки зрения удивляться следует уже тому, что, похоже, все физически измеримые особенности людей, растений и животных (той или иной разновидности) распределяются по одной-единственной математической функции.
Исторически человеческие характеристики служили основой не только для изучения статистических частотных распределений, но и для формулировки математического понятия корреляции. Корреляция – это степень, в которой изменения значения одной переменной приводят к изменениям другой. Например, чем выше женщина, тем больше у нее должен быть размер обуви. Подобным же образом психологи обнаружили корреляцию между интеллектом родителей и школьной успеваемостью детей.
Понятие корреляции особенно полезно в ситуациях, когда между двумя переменными нет точной функциональной взаимозависимости. Например, представим себе, что одна переменная – максимальная дневная температура на юге Аризоны, а другая – количество лесных пожаров в том регионе. Невозможно предсказать, какое количество лесных пожаров возникает при данной температуре, поскольку количество пожаров зависит и от других переменных, в частности, от влажности воздуха и от количества костров, которые разжигают люди. Иначе говоря, любому значению температуры соответствует разное количество лесных пожаров и наоборот. И все же математическое понятие коэффициента корреляции позволяет нам количественно измерить прочность отношений между двумя подобными переменными.
Коэффициент корреляции ввел в арсенал математиков викторианский географ, метеоролог, антрополог и статистик сэр Фрэнсис Гальтон (1822–1911)[88]. Гальтон – кстати, двоюродный брат Чарльза Дарвина – не был профессиональным математиком. Он был человек сугубо практического склада и обычно предоставлял другим математикам доводить свои новаторские понятия до совершенства; особенно ему помогал в этом статистик Карл Пирсон (1857–1936). Вот как Гальтон объяснял понятие корреляции.
Длина локтя коррелирует с телосложением, поскольку длинный локоть обычно предполагает высокий рост. Если корреляция между ними очень тесная, то очень длинный локоть обычно предполагает очень высокий рост, однако если бы она была не очень тесная, то очень длинный локоть в среднем связывался бы всего лишь с высоким, но не с очень высоким ростом, тогда как если бы она была нулевая, то очень длинный локоть не был бы связан ни с какими особенностями роста, а следовательно, в среднем, был бы связан с заурядным ростом.
В дальнейшем Пирсон дал точное математическое определение коэффициента корреляции. Этот коэффициент определяется таким образом, что когда корреляция очень высока – то есть когда колебания одной переменной очень точно следуют за взлетами и падениями другой, – коэффициент приобретает значение 1. Если же две величины антикоррелированы, то есть одна величина возрастает, когда другая уменьшается, и наоборот, коэффициент равен –1. Если две переменные ведут себя так, будто другой и вовсе не существует, коэффициент корреляции равен 0 (например, поведение иных правительств, к сожалению, демонстрирует практически нулевую корреляцию с пожеланиями народа, который они якобы представляют).
От выявления и вычисления корреляций в наши дни зависят и медицинские исследования, и экономические прогнозы. Например, связь между курением и раком легких и загаром и раком кожи изначально была выявлена благодаря обнаружению и вычислению корреляций. Биржевые аналитики постоянно пытаются найти и вычислить корреляции между поведением рынка и другими переменными – и любое подобное открытие приносит фантастические прибыли.
Как быстро выяснили некоторые первые статистики, и сбор статистических данных, и их интерпретация – дело непростое, и заниматься им надо с предельной осторожностью. Рыбак, который пользуется сетью с ячеей в десять дюймов, рискует сделать вывод, будто все рыбы в море больше десяти дюймов – просто потому, что более мелкая рыба к нему в сети не попадается. Это пример эффекта селекции, иначе называемого ошибкой отбора – предвзятости, которая влияет на результаты и вызвана либо используемым для сбора данных аппаратом, либо методами их анализа. Еще одна трудность – размер выборки. Например, современные опросы общественного мнения обычно охватывают не более нескольких тысяч человек. Откуда опрашивающие знают, что мнения, высказанные теми, кто попал в эту выборку, точно отражают мнения сотен миллионов человек? Кроме того, следует понимать, что корреляция не обязательно предполагает причинно-следственные связи. Иногда количество проданных тостеров растет одновременно с количеством проданных билетов на концерты классической музыки, но из этого не следует, что появление в доме нового тостера способствует улучшению музыкального вкуса. Скорее, и то и другое вызвано повышением уровня жизни.
Невзирая на все эти существенные оговорки, статистика превратилась в современном обществе в весьма действенный инструмент – именно она, в сущности, и делает социальные науки науками. Но почему она вообще дает осмысленные результаты? Ответ на этот вопрос дает математика вероятности, которая определяет самые разные стороны современной жизни. Когда инженеры решают, какими предохранительными устройствами снабдить пилотируемую исследовательскую капсулу для астронавтов, физики-ядерщики анализируют результаты экспериментов на ускорителе, психологи оценивают развитие детей по результатам тестов на IQ, фармацевтические компании оценивают действенность новых лекарств, а генетики изучают человеческую наследственность – все это непременно опирается на математическую теорию вероятности.
Игра случая
Серьезные исследования вероятности начались довольно скромно – с попыток игроков понять, как делать ставки в зависимости от шансов на успех[89]. В частности, в середине XVII века один французский аристократ по имени шевалье де Мере, известный игрок, задал целый ряд вопросов об игре знаменитому французскому математику и философу Блезу Паскалю (1623–1662). Паскаль в 1654 году вступил в оживленную переписку по поводу этих вопросов с другим французским математиком того времени Пьером Ферма (1601–1665). По сути дела, в ходе этой переписки и родилась теория вероятности.
Рассмотрим интереснейший пример, который Паскаль исследует в письме, датированном 29 июля 1654 года (Todhunter 1865, Hald 1990). Представьте себе двух аристократов, которые играют в кости, бросая один-единственный кубик. Каждый игрок положил на стол по 32 золотых пистоля. Первый игрок загадал число 1, второй – число 5. Каждый раз, когда на кубике выпадает загаданное игроком число, он получает одно очко. Побеждает тот, кто первым наберет три очка. Однако предположим, что с начала игры число 1 выпадало уже дважды, то есть игрок, загадавший его, получил уже два очка, а число 5 – лишь один раз, то есть его противник получил всего лишь одно очко. Если игра по какой-то причине в этот момент прерывается, как разделить между игроками 64 пистоля? Паскаль и Ферма нашли математически логичный ответ. Если бы игрок, набравший два очка, выиграл при следующем броске, то получил бы все 64 пистоля. Если бы при следующем броске выиграл второй игрок, то у каждого стало бы по два очка, и каждый, следовательно, получил бы по 32 пистоля. Поэтому, если игроки расходятся, не совершив следующего броска, первый игрок мог бы по справедливости сказать: «Я точно получу 32 пистоля, даже если проиграю этот бросок, а что касается остальных 32 пистолей, то их получу либо я, либо вы, наши шансы равны. Так что давайте поделим эти 32 пистоля поровну, а мне отдадим еще и те 32 пистоля, в которых я уверен». Иначе говоря, первый игрок должен получить 48 пистолей, а второй – 16 пистолей. Просто не верится, что из этих тривиальных на вид рассуждений родилась глубочайшая научная дисциплина! Однако именно по этой причине математика и обладает непостижимой и необъяснимой эффективностью, именно поэтому она так загадочна.
Суть теории вероятности можно уяснить из следующих простых фактов[90]. Никто не может точно предсказать, какой стороной вверх упадет подброшенная монетка. Даже если десять раз подряд выпадала решка, это ни на йоту не поможет нам точно предсказать, что выпадет в следующий раз. Однако мы можем совершенно точно предсказать, что если бросить монетку десять миллионов раз, то с очень небольшими отклонениями в половине случаев выпадет орел, а в половине – решка. Более того, в конце XIX статистик Карл Пирсон, набравшись терпения, подбросил монетку 24 000 раз. Решка выпала в 12 012 случаев. В некотором смысле теория вероятности к этому и сводится. Теория вероятности снабжает нас точной информацией о том, как будет выглядеть совокупность результатов большого количества экспериментов, но никогда не предсказывает результат какого-то одного конкретного эксперимента[91]. Если эксперимент может дать n возможных результатов, причем шансы получить каждый из них равны, то вероятность каждого результата равна 1/n. Если бросить кость, не жульничая, то вероятность получить число 4 равна 1/6, поскольку у игральной кости шесть сторон и шансы на то, что выпадет та или иная из них, равны. Представьте себе, что вы бросили кость семь раз подряд и каждый раз получали 4 – какова вероятность получить 4 в результате следующего броска? Теория вероятности дает на это четкий и ясный ответ: вероятность по-прежнему равна 1/6, потому что кость ничего не помнит и все разговоры о «счастливой звезде» и о том, что следующий бросок возместит прежний перекос, не более чем мифы. А правда состоит в том, что если бросить кость миллион раз, результаты выровняются по средним значениям, и 4 будет выпадать почти точно в 1/6 части случаев.