Пример практического применения Байесова подхода к статистическим задачам
Обратимся вновь к булавочной компании. Компания имеет две фабрики, причем старая выпускает 40% продукции. Это означает, что взятая наугад булавка, бракованная или нет, с вероятностью 40% выпущена на старой фабрике; это исходная вероятность. Известно, что на старой фабрике процент брака вдвое больше, чем на новой. Если клиент звонит и сообщает о купленной им бракованной булавке, на какую из двух фабрик должен звонить менеджер по сбыту?
Исходная вероятность побуждает утверждать, что, скорее всего, бракованная булавка сделана на новой фабрике, выпускающей 60% продукции компании. С другой стороны, частота появления брака на этой фабрике вдвое меньше, чем на старой. Пересмотрев исходную вероятность с учетом этой дополнительной информации, получаем, что вероятность выпуска бракованной булавки новой фабрикой равна только 42,8%; это значит, что с вероятностью 57,2% виновата старая фабрика. Эта новая оценка становится апостериорной вероятностью.
Глава 8
Предельный закон хаоса
В 1855 году в Гёттингене в возрасте 78 лет скончался Карл Фридрих Гаусс. За последние 27 лет жизни он только однажды не ночевал дома и, надо думать, из неприязни к путешествиям категорически отказывался от предложений самых известных университетов Европы занять место профессора.
Подобно многим математикам до и после него, Гаусс уже в раннем детстве проявил гениальные способности, чем в равной степени огорчил отца и обрадовал мать. Его отец был простым рабочим, презирал заумные увлечения своего гениального сына и всячески портил ему жизнь. Мать, напротив, как могла, старалась защитить своего мальчика и всемерно поощряла его увлечение математикой, за что Гаусс до конца дней вспоминал о ней с глубокой благодарностью.
Биографы, как обычно в таких случаях, сообщают всевозможные истории о математических головоломках, которые будущий великий математик решал в том возрасте, когда большинство детей с трудом делят 24 на 12. Он обладал феноменальной памятью и помнил всю логарифмическую таблицу назубок. В восемнадцать лет он сделал удивительное открытие, касающееся свойств семнадцатиугольника; такого в математике не случалось уже 2000 лет со времен древних греков. Его докторская диссертация на тему "Новое доказательство того, что каждая целая рациональная функция одной переменной может быть представлена произведением действительных чисел первой и второй степени" посвящена решению основной теоремы алгебры. Сама теорема была известна и раньше, но он предложил совершенно новое доказательство.
Слава Гаусса была столь велика, что, когда в 1807 году французские войска подошли к Гёттингену, Наполеон приказал поберечь город, в котором живет "величайший математик всех времен". Со стороны Наполеона это было очень любезно, но слава имеет и оборотную сторону. Когда победители наложили на Германию контрибуцию, они потребовали с Гаусса 2000 франков. Это соответствовало примерно 5000 нынешних долларов - довольно крупная сумма для университетского профессора. Друзья предлагали помощь, Гаусс отказывался; пока шли препирательства, выяснилось, что деньги уже уплачены знаменитым французским математиком Морисом Пьером де Лапласом (1749-1827). Лаплас объяснил свой поступок тем, что считает Гаусса, который был на 29 лет моложе его, "величайшим математиком в мире", т. е. оценил его чуть ниже, чем Наполеон. Позднее анонимный почитатель прислал Гауссу 1000 франков, чтобы помочь ему рассчитаться с Лапласом.
Сам Лаплас был весьма колоритной фигурой, о которой стоит сказать здесь несколько слов; подробнее мы поговорим о нем в главе 12.
В детстве он, как и Гаусс, был математическим вундеркиндом, а впоследствии прославился своей космогонической теорией в астрономии. В течение многих лет его внимание привлекали некоторые разделы теории вероятностей, которые исследовал Гаусс. Но на этом сходство кончается. Жизнь Лапласа протекала на фоне Французской революции, Наполеоновских войн и реставрации Бурбонов. Честолюбивому человеку нужно было обладать большой ловкостью, чтобы в этой кутерьме удержаться на поверхности. Лаплас оказался как раз таким человеком.
В 1784 году король сделал его инспектором королевской артиллерии, положив очень приличное жалованье. Однако с установлением республики в Лапласе проснулась "неугасимая ненависть к монархии", а очень скоро после захвата власти Наполеоном он заявил о своей решительной поддержке нового вождя, который дал ему пост министра внутренних дел и титул графа, по-видимому рассчитывая, что сотрудничество всемирно известного ученого укрепит авторитет нового режима. Но уже через шесть недель, уволив Лапласа и посадив на его место своего брата, Наполеон скажет: "Он был хуже самого посредственного чиновника, который во всем видит только хитросплетения. Министерство под его руководством погрязло в трясине бесконечно малой чепухи". Неплохой урок для ученых, которым неймется стать власть имущими!
Правда, позже Лаплас взял реванш. Вышедшее в 1812 году первое издание своей "Theorie analytique des probabilites" ("Аналитической теории вероятностей") он еще посвятил "Великому Наполеону", но из второго издания 1814 года это посвящение вычеркнул и связал перемену политических ветров с темой своего трактата. "Падение империй, стремившихся к господству над миром, - написал он, - с очень высокой степенью вероятности мог предсказать каждый сведущий в вычислениях шансов". Людовик XVIII после коронации припомнил это замечание, и Лаплас стал маркизом.
***
В отличие от Лапласа Гаусс был очень замкнутым человеком и вел затворнический образ жизни. Он не опубликовал массу своих открытий, и многие из них были заново сделаны другими математиками. В публикациях он уделял больше внимания результатам, не придавая особого значения методам их получения и часто заставляя других математиков тратить массу сил на доказательство его выводов. Эрик Темпл Белл, один из биографов Гаусса, считает, что его необщительность задержала развитие математики по меньшей мере на пятьдесят лет; полдюжины математиков могли бы прославиться, если бы получили результаты, годами, а то и десятилетиями хранившиеся у него архиве.
Слава и замкнутость сделали Гаусса неисправимым интеллектуальным снобом. Хотя его основные достижения связаны с теорией чисел, в которой прославился Ферма, он почти не использовал результаты знаменитого тулузского адвоката, а от его великой теоремы, остающейся более трех столетий завораживающей загадкой для математиков всего мира, отмахнулся, назвав ее "частным утверждением, для меня малоинтересным, потому что я легко могу выложить множество подобных утверждений, которые никто не сможет ни доказать, ни опровергнуть".
Это не было пустой похвальбой. В 1801 году, когда ему было 24 года, Гаусс опубликовал "Disquisitiones Arithmeticae" ("Арифметическое исследование"), написанное на элегантной латыни яркое и значительное историко-научное исследование по теории чисел. Большая часть книги недоступна нематематикам, но для него самого написанное звучало как музыка. Он находил в теории чисел "магическое очарование" и радовался открытию и доказательству всеобщности таких, например, соотношений:
1 = 1
1 + 3 = 2
1 + 3 + 5 = 3
1 + 3 + 5 + 7 = 4
Или, в общем виде, сумма п первых нечетных чисел равна п. Отсюда сумма первых 100 нечетных чисел от 1 до 199 равна 100, или 10 000, а сумма нечетных чисел от 1 до 999 равна 250 000.
В 1801 году Гаусс снизошел до демонстрации важных практических приложений своих теоретических выкладок. В 1800 году один итальянский астроном открыл маленькую новую планету, на астрономическом языке астероид, и назвал ее Церера. Год спустя Гаусс вычислил ее орбиту; раньше он уже занимался вычислением лунных таблиц, позволяющих в любой год определить дату праздника Пасхи. В те времена он еще руководствовался желанием завоевать признание, и ему очень хотелось попасть в компанию своих выдающихся предшественников - от Птолемея до Галилея и Ньютона - в изучении небесной механики, хотя он был далек от мысли превзойти астрономические достижения своего современника и благодетеля Лапласа. Впрочем, эта частная задача была привлекательна и сама по себе, в особенности учитывая неполноту данных и незнание скорости вращения Цереры вокруг Солнца.
В результате лихорадочных вычислений Гаусс нашел очень точное решение, дающее возможность предсказывать местонахождение Цереры в любой момент. За время этой работы он настолько поднаторел в небесной механике, что научился вычислять орбиты комет в течение одного-двух часов, в то время как у других ученых эта работа отнимала три-четыре дня.
Гаусс особенно гордился своими астрономическими достижениями, ощущая себя последователем Ньютона, который был его идеалом. Восхищенный открытиями великого англичанина, он впадал в бешенство при упоминании об истории с яблоком, падение которого якобы послужило поводом к открытию закона всемирного тяготения, и так отзывался об этой басне:
"Глупость! Какой-то надоедливый дурак пристал к Ньютону с вопросом, как он открыл закон тяготения. Увидев, что имеет дело с несмышленышем, и стараясь избавиться от надоеды, Ньютон сказал, что ему на нос упало яблоко. Удовлетворенный ответом приставала отошел в полной уверенности, что все понял"
Гаусс был невысокого мнения о человечестве, порицал рост националистических настроений, сопровождаемый прославлением воинских доблестей, и считал завоевательную политику "непостижимой глупостью". Из-за своей мизантропии он и просидел дома большую часть жизни.
***
Не питая особого интереса к управлению риском как таковому, он, однако, интересовался теоретическими проблемами, поднятыми в работах по вероятности, теории больших чисел и теории выборки, начатых Якобом Бернулли и продолженных де Муавром и Байесом, и его собственные достижения в этой области легли в основу современных методов контроля риска.
Впервые он обратился к вероятностным проблемам при описании метода определения орбиты на основе множества дискретных наблюдений в книге о движении небесных тел, опубликованной в 1809 году под названием "Theoria Motus" ("Теория движения"). Когда в 1810 году "Theoria Motus" попала в руки Лапласу, тот сразу ухватился за нее и занялся выяснением некоторых неясностей, которых Гауссу не удалось избежать.
Но наиболее ценный вклад в теорию вероятностей Гаусс внес в результате работы, к вероятности никакого отношения не имеющей, а именно занимаясь геодезическими измерениями кривизны Земли для определения точности географических наблюдений. Из-за шарообразности Земли расстояние между двумя точками на ее поверхности отличается от расстояния между ними, пролетаемого вороной. Эта разница пренебрежимо мала для расстояния в несколько миль, но при расстоянии более десяти миль она становится ощутимой.
В 1816 году Гаусс получил приглашение руководить геодезическими съемками в Баварии и состыковать их результаты с такими же измерениями, уже выполненными в Дании и Северной Германии. Надо полагать, эта работа была малоинтересна для такого до корней волос теоретика, каким был Гаусс. Ему пришлось покинуть кабинет, работать на пересеченной местности, общаться с чиновниками и прочим людом, включая коллег, интеллектуальный уровень которых был ему неинтересен. Но работа затянулась до 1848 года, и опубликованные в конце концов результаты составили шестнадцать томов.
Поскольку невозможно обмерить каждый квадратный дюйм земной поверхности, геодезическая съемка представляет собой замеры, выполняемые на заданном расстоянии друг от друга. Анализируя распределение результатов этих замеров, Гаусс заметил, что они имеют разброс, но, когда число замеров растет, результаты группируются вокруг некоторой центральной точки. Этой центральной точкой является среднее значение всех результатов измерений, а сами результаты распределяются симметрично по обе стороны от среднего значения. Чем больше измерений выполнялось, тем больше прояснялась картина распределения результатов и тем больше она напоминала колоколообразную кривую, полученную де Муавром 83 годами раньше.
Связь между риском и измерением кривизны земной поверхности оказалась теснее, чем можно было предположить. Пытаясь установить кривизну Земли, Гаусс день за днем осуществлял на баварских холмах одно геодезическое измерение за другим, пока не набралось огромное количество наблюдений. Точно так же, как мы рассматриваем опыт прошлого для вынесения суждений о вероятности того или иного направления развития событий в будущем, Гаусс оценивал накопившиеся результаты и выносил суждение о том, как кривизна земной поверхности влияет на результаты замеров расстояний между разными точками в Баварии. Он мог судить о точности своих наблюдений по распределению массы результатов наблюдений вокруг среднего значения.
Принимая связанные с риском решения, мы на каждом шагу встречаемся с разновидностями вопроса, на который он пытался ответить. Сколько в среднем ливней следует ожидать в Нью-Йорке в апреле и каковы наши шансы остаться сухими, если, уезжая на неделю в Нью-Йорк, мы не захватим плащ? Какова вероятность попасть в автомобильную аварию, если мы собираемся проехать 3000 миль, чтобы пересечь страну? Какова вероятность падения курса акций на 10% в будущем году?
***
Разработанные Гауссом методы получения ответов на подобные вопросы настолько общеизвестны, что мы редко задаемся вопросом об их происхождении. Но без этих методов невозможно оценить степень риска, с которым мы сталкиваемся в жизни, и принимать обоснованные решения о том, стоит или не стоит идти на риск. Без этих методов мы не смогли бы оценивать точность имеющейся информации, как не смогли бы оценивать вероятность того, что некое событие произойдет - дождь, смерть 85-летнего человека или падение курса акций на 20%, победа русских на Кубке Дэвиса или демократического большинства на выборах в конгресс, что сработают ремни безопасности при аварии или при бурении наугад будет открыто месторождение нефти.
Процесс оценки данных начинается с анализа колоколообразной кривой, главным назначением которой является не определение точного значения, а оценка ошибок. Если бы результат каждого измерения точно соответствовал тому, что мы измеряем, не о чем было бы говорить. Если бы люди, слоны, орхидеи или гагарки не отличались друг от друга в пределах своего вида, жизнь на Земле была бы совсем другой. Но в мире господствует не тождество, а сходство; ни одно измерение не является абсолютно точным. При наличии нормального распределения колоколообразная кривая упорядочивает эту путаницу. Фрэнсис Гальтон, с которым мы встретимся в следующей главе, с немалой долей пафоса писал о нормальном распределении:
""Закон частоты ошибок"... с непоколебимым самообладанием безмятежно царит в немыслимом хаосе. Чем больше толпа... тем больше в ней единства. Это предельный закон хаоса. Чем больше беспорядочных элементов попадает в его руки... тем более неожиданной и прекрасной оказывается скрывающаяся за видимым хаосом форма упорядоченности".
Большинство из нас сталкивается с колоколообразной кривой еще в школьные годы. Учитель выставляет оценки "по кривой", в случайном порядке, он не начинает с низшей, чтобы закончить высшей. Успеваемость средних студентов вознаграждается средней троечкой. Слабые и сильные получают оценки, распределяющиеся симметрично относительно средней. Даже если все работы выполнены прекрасно или, наоборот, безобразно, в совокупности имеющихся работ лучшая оценивается по высшему баллу, а худшая по низшему.
Многие натуральные показатели, например рост людей в группе или длина среднего пальца, описываются нормальным распределением. По утверждению Гальтона, для того чтобы результаты наблюдений располагались нормально или симметрично относительно среднего значения, необходимы два условия. Во-первых, число наблюдений должно быть достаточно велико, во-вторых, наблюдения должны быть независимыми, как бросание кости. Упорядочить можно только хаос.