Закону Бенфорда подчиняется большинство множеств данных, взятых из реальной жизни, например численность населения в 3221 округе США и совокупный квартальный доход 30 525 открытых акционерных компаний за период с 1961 по 2011 год [4].
Закон Бенфорда — одна из самых замечательных числовых закономерностей, существующих в мире. Чуть ниже я остановлюсь на некоторых других, но, прежде чем перейти к ним, мы должны провести одно расследование.
Даррелл Доррелл напоминал мне медведя. Эта ассоциация отчасти объяснялась тем, что мы с ним встретились в Портленде, столице штата Орегон, в котором водится много медведей, и частично тем, что Даррелл был мужчиной коренастого телосложения, с торчащими усами и низким голосом, смахивающим на тихое рычание. Кроме того, ассоциация была связана с его работой финансового следователя. Даррелл вынюхивает искаженные данные с хищническим инстинктом гризли, добывающего себе пищу. Вам лучше не допускать его к своим бухгалтерским книгам, если в них есть хотя бы малейший намек на злоупотребления. ЦРУ, Министерство юстиции и Комиссия по ценным бумагам и биржам регулярно пользовались его услугами в области судебно-бухгалтерской экспертизы (этим отраслевым термином обозначается расследование финансовых махинаций). У Даррелла есть лицензия на ношение оружия. «Все двери здесь закрываются изнутри, — объяснял он. — Мы вызываем у многих людей недовольство».
Когда в начале тысячелетия Даррелл впервые услышал о законе Бенфорда, он испытал примерно те же эмоции, что и люди, пережившие большую утрату: удивление, отрицание, гнев и принятие. «Сначала у меня возникла мысль: “Почему я не слышал об этом раньше?” Затем я подумал: “Этого просто не может быть!” А когда в конце концов понял суть этого закона, на меня снизошло озарение: “Вот это да! Ведь это еще один инструмент, который можно использовать”». Теперь в ходе расследования финансовых махинаций Даррелл прежде всего проверяет первые цифры номеров банковских счетов и данных в бухгалтерских книгах компаний. Финансовые данные, включающие в себя величины нескольких порядков (другими словами, которые отражают количество, измеряемое в единицах продукции или в десятках, сотнях и тысячах долларов), должны подчиняться закону Бенфорда. Если этого не происходит, значит, либо существует обоснованное объяснение (например, регулярная закупка товаров стоимостью, скажем, 40 долларов за единицу, которая влечет за собой повышение вероятности появления цифры 4), либо имеют место преступные действия. Отклонение от закона Бенфорда — это признак того, что соответствующие финансовые данные требуют более тщательного анализа.
Даррелл показал на висевшую на стене рамку, в которую была помещена первая страница газеты со статьей о вынесении приговора Уэсли Родсу — местному финансовому консультанту, укравшему у инвесторов миллионы долларов, чтобы покупать на эти деньги классические модели автомобилей. «Закон Бенфорда помог нам привлечь его к ответственности», — сообщил Даррелл. Отчеты, которые Родс отправлял инвесторам, не прошли проверку на соответствие закону первой цифры, а это означало, что что-то с ними не так. Проанализировав отчеты более внимательно, Даррелл обнаружил, что Родс сфальсифицировал данные. Теперь Даррелл характеризует закон Бенфорда так: «Это ДНК количественного исследования, исходное предположение о том, как работают цифры. И, как я уже неоднократно объяснял в суде, хорошо то, что здесь речь идет о науке. Открытие Бенфорда — не теория. Это закон».
Метод анализа чисел на предмет их соответствия закону Бенфорда все чаще используется для выявления манипуляций с данными, причем не только в контексте финансовых махинаций, но и во всех тех случаях, к которым этот закон применим. В 2006 году Скотт де Марчи и Джеймс Гамильтон из Университета Дьюка написали, что предоставленные промышленными предприятиями сведения об уровне выброса свинца и азотной кислоты не удовлетворяют закону Бенфорда, а это говорит о вероятности искажения информации [5]. На основании закона Бенфорда политолог Мичиганского университета Уолтер Мибейн заявил о возможной фальсификации результатов президентских выборов в Иране. Мибейн проанализировал все протоколы голосования и обнаружил существенные расхождения в количестве голосов за Махмуда Ахмадинежада с законом Бенфорда, тогда как в результатах его соперника, сторонника реформ Мир-Хосейна Мусави, никаких отклонений от этого закона не наблюдалось. «Самое простое объяснение, — писал Мибейн, — состоит в том, что в результаты Ахмадинежада были искусственным образом включены дополнительные голоса, тогда как результаты Мусави остались нетронутыми». Ученые используют закон Бенфорда и в качестве инструмента диагностики. Так, во время землетрясений верхние и нижние значения показаний сейсмографа подчиняются данному закону. Малколм Сэмбридж из Австралийского национального университета проанализировал две разные сейсмограммы, на которых было зафиксировано землетрясение в Индонезии в 2004 году, — одна была записана в Перу, а другая в Австралии. Данные, отображенные на первой сейсмограмме, полностью соответствовали закону Бенфорда, тогда как на второй имели место небольшие отклонения. Сэмбридж объяснил это тем, что в районе Канберры могло произойти незначительное сейсмическое возмущение. Так проверка данных на соответствие закону первой цифры позволила выявить землетрясение, которое осталось незамеченным.
Цифра 1 встречается чаще цифры 2 не только на первой, но и на второй, третьей, четвертой и фактически любой позиции в записи числа. На представленном ниже рисунке продемонстрирована частотность вторых цифр в процентном выражении (среди которых есть теперь и цифра 0). Различия между этими показателями не столь ощутимы, как в случае первых цифр, но их все же можно использовать в целях диагностики, скажем в процессе анализа финансовых данных и результатов выборов. По мере продвижения к следующим позициям данные о частоте появления цифр стремятся к одному значению. Следовательно, закон Бенфорда касается не только первых цифр. В мире действительно гораздо больше единиц!
В суде Доррелла часто просят обосновать закон Бенфорда. В таких случаях Даррелл становится перед лекционной доской и начинает считать от единицы и далее, записывая названные цифры. При этом он чувствует себя школьным учителем, проводящим урок математики. «Это просто выводит из себя судью и адвоката», — иронизирует он.
Мы можем сделать то же самое. Вот числа от 1 до 20:
1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20
Больше половины этих чисел начинаются с цифры 1, поскольку от 11 до 19 все числа начинаются с единицы. Продолжаем считать. Где бы мы ни остановились, чисел с первой цифрой 1 будет не меньше, чем чисел с первой цифрой 2, поскольку для того, чтобы добраться до второго десятка, второй сотни или второй тысячи, необходимо назвать все числа первого десятка, первой сотни и первой тысячи. Точно так же чисел с первой цифрой 2 будет не меньше, чем чисел с первой цифрой 3 и т. д., вплоть до чисел с первой цифрой 9. Такое обоснование помогает понять закон Бенфорда на интуитивном уровне, и его вполне достаточно для суда как государственного органа, а вот для суда математики требуется более строгое доказательство.
Одно из самых поразительных свойств закона Бенфорда — что последовательность цифр не зависит от единицы измерения. Когда массив финансовых данных подчиняется закону Бенфорда в случае, если они выражены в фунтах, он будет подчиняться этому закону и после их конвертации в доллары. Если массив географических данных соответствует закону Бенфорда в километрах, он будет соответствовать ему и в случае их представления в милях. Это свойство, обозначаемое термином «масштабная инвариантность», верно всегда, поскольку числа, взятые из газет, банковских счетов и атласов мира показывают одно и то же распределение первых цифр независимо от используемых систем измерения и валюты.
Для перевода расстояния из миль в километры необходимо умножить его на 1,6; для конвертации денежной суммы из фунтов в доллары ее тоже следует умножить на фиксированное число, соответствующее текущему обменному курсу. Простейший способ понять масштабную инвариантность закона Бенфорда сводится к анализу поведения чисел в случае их умножения на два. Если число, начинающееся с цифры 1, умножить на 2, результат будет начинаться с цифры 2 или 3. (Например, 12 × 2 = 24; 166 × 2 = 332.) Если число, начинающееся с цифры 2, умножить на 2, первой цифрой произведения будет 4 или 5. (Например, 2,1 × 2 = 4,2; 25 × 2 = 50.) Первые две строки представленной ниже таблицы показывают, что происходит с первой цифрой числа в случае его умножения на два.
Первая цифра числа n
1
Первая цифра числа n
1
2
3
4
5
6
7
8
9
Первая цифра числа 2n
2 или 3
4 или 5
6 или 7
8 или 9
1
1
1
1
1
Процент чисел в распределении Бенфорда
30,1
17,6
12,5
9,7
7,9
6,7
5,8
5,1
4,6
Предположим, S — это массив данных, подчиняющихся закону Бенфорда. Давайте умножим на два каждое число, входящее в массив S, и обозначим новый массив чисел буквой T. Согласно таблице, числа из массива S, начинающиеся с цифры 5, составляют 7,9 процента от общего количества чисел в массиве; числа, первая цифра которых 6, — 6,7 процента, 7, 8 и 9 — 5,8; 5,1 и 4,6 процента соответственно. Следовательно, в массиве S доля чисел, начинающихся с 5, 6, 7, 8 или 9, равна 7,9 + 6,7 + 5,8 + 5,1 + 4,6 = 30,1 процента. Если числа, первая цифра которых 5, 6, 7, 8 или 9, умножить на два, произведение всегда будет начинаться с цифры 1, как показано в таблице. Другими словами, 30,1 процента чисел в массиве T начинается с цифры 1, что соответствует закону Бенфорда!
Данная закономерность имеет место и в случае других цифр. Умножение на 2 сначала нарушает, а затем восстанавливает действие закона Бенфорда, но распределение первых цифр при этом сохраняется. Я выбрал умножение на 2, поскольку это самый простой множитель, но с таким же успехом можно было бы взять в качестве множителя 3, или 1,6, или число π, или какое-либо еще — закон Бенфорда действовал бы, так или иначе. Под любое изменение масштаба распределение Бенфорда перенастраивается, как будто это делает рука самого Бога.
В течение нескольких десятилетий после открытия закона Бенфорда он считался не более чем аномалией, трюком из шоу иллюзионистов, нумерологией, но никак не математикой. Однако в 90-х годах ХХ столетия профессор Технологического института штата Джорджия Тед Хилл решил найти теоретическое обоснование распространенности этого закона. Сейчас ученый живет в городе Лос-Осос; это чуть дальше вдоль побережья Тихого океана от того места, где обосновался Даррелл Доррелл. Тед — бывший солдат, высокий, широкоплечий стройный мужчина с бритой головой и седыми усами, сохранивший армейскую выправку. Когда я приехал к нему, он повел меня в небольшой деревянный домик в конце сада, из окон которого открывался вид на океан и два национальных парка. В камине потрескивали дрова. Тед назвал этот домик «математической дачей». Это глобальный центр исследования закона Бенфорда.
Первый серьезный результат, полученный Тедом Хиллом, — это доказательство того, что при существовании некой универсальной закономерности распределения первых цифр оно подчиняется исключительно закону Бенфорда. То есть распределение первых цифр по Бенфорду — единственное, которое не меняется в случае изменения масштаба. Этот вывод позволил Теду изобрести игру, в которую мы с ним сыграли.
«Каждый из нас выбирает число, — объяснил мне Тед. — Затем мы их перемножаем. Если произведение начинается с цифры 1, 2 или 3, значит, выигрываю я; если с цифры 4, 5, 6, 7, 8 или 9 — то вы».
На первый взгляд может показаться, что в этой игре явный перевес в мою пользу, поскольку в моем распоряжении шесть цифр, тогда как у Теда — всего три. Тем не менее в большинстве случаев Тед будет выигрывать, выбирая числа в соответствии с распределением Бенфорда, другими словами — если на протяжении нескольких игр он будет выбирать числа, начинающиеся с цифры 1, — то в 30,1 процента случаев, цифру 2 — в 17,6 процента случаев и т. д. Если Тед будет действовать таким образом, от выбранного мной числа не зависит, какая цифра окажется первой: в 30,1 процента случаев это будет цифра 1, в 17,6 процента случаев — цифра 2, в 12,5 процента случаев — цифра 3. Сумма этих трех показателей составляет 60,2 процента; следовательно, Тед выиграет в 60,2 процента случаев. В эту игру хорошо играть на деньги: даже если в вашем распоряжении только 1, 2 и 3 в качестве целевых цифр, ваши шансы на победу гораздо выше, чем в случае цифр 4, 5, 6, 7, 8 и 9, хотя поначалу кажется, что это не так.
Эта игра помогает объяснить, почему многие массивы данных, формирующиеся естественным образом, подчиняются закону Бенфорда. Предположим, мы с Тедом сыграли в эту игру сто раз; у него были числа (a1, a2, a3 … a100), а у меня — числа (b1, b2, b3 … b100). Мы знаем, что если числа Теда удовлетворяют закону Бенфорда, то результат умножения его чисел на мои (a1 × b1, a2 × b2, a3 × b3 … a100 × b100) также подчиняется этому закону. Следовательно, если мы умножим эти числа на еще один набор случайно выбранных чисел (c1, c2, c3 … c100), для того чтобы получить еще один массив чисел (a1 × b1 × c1, a2 × b2 × c2, a3 × b3 × c3 … a100 × b100 × c100), этот массив тоже будет соответствовать закону Бенфорда. Дело в том, что, сколько бы массивов данных мы ни умножали друг на друга, достаточно, чтобы хотя бы один из них удовлетворял закону Бенфорда, для того чтобы этому закону подчинялся и массив результатов умножения. Другими словами, закон Бенфорда настолько заразителен, что наличие в мультипликативной цепочке единственного массива данных, удовлетворяющего ему, влияет на общий результат. Поскольку многие явления (такие как цены акций, численность населения, длина рек и т. д.) формируются под воздействием повышения или снижения различных показателей, обусловленного множеством независимых случайных факторов, это объясняет широкую распространенность неравномерного распределения первых цифр.
Самая известная теорема Теда Хилла гласит:
Если взять случайные выборки из случайным образом выбранных массивов данных, то чем больше количество массивов и выборок, тем ближе к закону Бенфорда будет распределение первых цифр в смешанной выборке.
Эта теорема позволяет определить, когда может иметь место закон Бенфорда. «Если предположение о том, что несмещенные случайные выборки взяты из случайных распределений верно, тогда эти данные должны полностью подчиняться закону Бенфорда», — утверждает Тед. Этот вывод объясняет, почему газеты так хорошо иллюстрируют действие закона первой цифры. Числа, которые появляются в новостях, — это, по сути, произвольные выборки, взятые из случайных массивов данных, таких как цены акций, температура воздуха, распределение голосов во время выборов или результаты лотереи. Хотя многие из этих массивов данных могут не удовлетворять закону Бенфорда, чем больше массивов мы проанализируем и чем больше выборок включим в анализ, тем ближе к распределению Бенфорда будет смешанная выборка. Если продолжать процесс до бесконечности, смешанные выборки будут подчиняться закону Бенфорда с точностью до 100 процентов.
Я спросил Теда, есть ли у его теоремы простое интуитивное объяснение. В ответ он покачал головой. Тед доказал эту теорему, применив эргодическую теорию — передовую область науки, которая представляет собой сочетание теории вероятности и статистической физики и изучается только в аспирантуре. Несмотря на достаточно понятную формулировку, у теоремы нет простого доказательства. «Во всяком случае, такое доказательство не обнаружено», — поясняет Тед.
Тем не менее работа Теда Хилла дает математическое обоснование для использования закона Бенфорда при рассмотрении судебных дел. Впоследствии к Теду начали обращаться за советом ученые, которые хотели знать, соответствуют ли их данные закону первой цифры. По словам Хилла, самая необычная просьба поступила от одной христианской организации. В ней обнаружили, что процентное содержание различных минералов в морской воде и земной коре подчиняется закону Бенфорда. Это открытие так поразило и удивило ее членов, что, по их словам, это мог быть только продукт разумного замысла. Так не согласится ли Тед выступить в рамках их кампании за преподавание учения о сотворении мира в техасских школах?
Теду нравилось выискивать примеры действия закона Бенфорда в чистой математике.
Последовательность, каждый член которой в два раза больше предыдущего:
1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024…
Последовательность, каждый член которой в три раза больше предыдущего:
1, 3, 9, 27, 81, 243, 729, 2187, 6561, 19 683…
Последовательность, каждый член которой поочередно умножается на два и на три: