1, 3, 9, 27, 81, 243, 729, 2187, 6561, 19 683…
Последовательность, каждый член которой поочередно умножается на два и на три:
1, 2, 6, 12, 36, 72, 216, 432, 1296, 2592, 7776, 15 552…
Все эти последовательности подчиняются закону Бенфорда.
То же самое можно сказать и о последовательности чисел Фибоначчи, в которой каждое следующее число представляет собой сумму двух предыдущих:
1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144…
Чем больше членов последовательности вы анализируете, тем ближе распределение первых цифр чисел, входящих в нее, к распределению Бенфорда.
Тед также доказал, что любая последовательность, которая начинается со случайного числа и формируется по принципу «удвоить и прибавить 1», соответствует закону Бенфорда. То же самое касается и любой последовательности, начинающейся с произвольного числа и формирующейся по принципу «возвести в квадрат». Но, когда Тед приступил к анализу последовательности чисел, построенной по принципу «возвести в квадрат и прибавить 1», он обнаружил нечто неожиданное.
«С какого бы числа ни начиналась такая последовательность, она почти всегда подчиняется закону Бенфорда. Однако при некоторых исходных числах этого не происходит, причем найти эти числа довольно трудно. Сперва мне казалось, что их нет. Я думал: “Этого не может быть! Это просто невозможно!” Но мы все же нашли одно число, обладающее поразительным свойством: когда оно является первым членом последовательности, в которой каждый следующий член на единицу больше квадрата предыдущего, то каждое число такой последовательности начинается с цифры 9. Это просто невероятно. Это сбой в системе».
Вот это число: 9,94962308959395941218332124109326…
На самом деле для последовательности чисел, сформированной по принципу «возвести в квадрат и прибавить 1», существует бесконечное множество таких исходных чисел, но они размещены на цифровой оси настолько редко, что вероятность выбрать какое-то из них случайным образом равна нулю. По словам Теда, у закона Бенфорда масса секретов, которые еще предстоит открыть.
Закон Бенфорда — один из самых ярких примеров того, как процесс, в котором фигурирует большое количество неизвестных случайных факторов, может образовать очень простую числовую закономерность. Точная последовательность событий, приводящих к росту или падению курса акций или увеличению численности населения города, может оказаться слишком сложной для понимания, но результат этих событий хорошо упорядочен и довольно прост. Не исключено, что у нас не получится составить прогноз в отношении курса конкретных акций или численности населения определенного города, но мы можем быть уверены в одном: в целом эти показатели всегда подчиняются закону Бенфорда.
В книгах тоже часто встречаются простые числовые закономерности. Возьмем в качестве примера книгу Джеймса Джойса Ulysses («Улисс»)9. В 40-х годах ХХ столетия исследователи Висконсинского университета на протяжении четырнадцати месяцев составляли список слов, которые использовались в этой книге [6]. Они напечатали ее на гуммированной бумаге, вырезали отдельные слова и наклеили их на тысячах отдельных листков. Затем упорядочили эти слова по убыванию частоты их встречаемости в тексте. Полученные данные представляли интерес не только для студентов, изучающих лингвистику, но и для психологов, работающих с лексическими ассоциациями, а также для таких нестандартно мыслящих ученых, как профессор Гарвардского университета Джордж Кингсли Ципф, который выявил потрясающую закономерность [7].
Слово
Ранг (порядковый номер)
Частота
I («я»)
10
2653
Say («сказать»)
100
265
Bag («сумка»)
1000
26
Orangefiery («оранжево-пламенный»)
10 000
2
Оказалось, что десятое по частоте употребления слово встречается в тексте почти в десять раз чаще, чем сотое, почти в сто раз чаще, чем тысячное, и почти в тысячу раз чаще, чем десятитысячное. Джеймс Джойс не выбирал слова с такой арифметической точностью специально; тем не менее закономерность, которой подчиняется их встречаемость в его книге, очевидна.
Если говорить языком математики, частота встречаемости слов в романе «Улисс» приближенно подчиняется следующему закону:
частота × ранг = 26 500
Эту формулу можно привести к такому виду:
В общем виде данное уравнение выглядит так:
Следовательно, частотность употребления того или иного слова обратно пропорциональна его рангу (порядковому номеру) в списке, упорядоченном по убыванию частоты. Другими словами, если ранг слова в n раз больше, то частота его использования в n раз меньше.
Изучив другие тексты, Ципф пришел к выводу, что во всех книгах на всех языках частота встречаемости слов и их порядковый номер в частотном списке находятся в обратной зависимости, но с небольшим уточнением:
Это уравнение известно как закон Ципфа. (Когда два числа записаны в форме xy, мы говорим «x в степени y», и это значит, что число x умножается само на себя y раз. Как мы знаем со школьных лет, 42 = 4 × 4, а 23 = 2 × 2 × 2. Однако число y может быть не только целым числом. Следовательно, 21,5 означает, что число 2 умножается само на себя 1,5 раза, а это равно 2,83. Чем ближе значение числа y к 1, тем ближе xy к числу x.)
Ципф обнаружил, что значение константы a всегда стремится к 1 независимо от того, кто автор книги и каково ее содержание. То есть зависимость между частотой встречаемости слов и их рангом всегда очень близка к обратно пропорциональной зависимости. В случае романа «Улисс» значение a равно 1.
Я считаю закон Ципфа чрезвычайно увлекательным. Он раскрывает заманчиво простую математическую закономерность, определяющую выбор слов. Я решил выяснить, соблюдается ли этот закон в книге, которую вы сейчас читаете. Для подсчета частотности слов я воспользовался компьютерной программой, а не гуммированной бумагой и ножницами. Просматривая частотную таблицу, я увидел, что частота встречаемости слов действительно обратно пропорциональна их порядковому номеру в таблице. Самое распространенное слово, употребляемое мною в книге («the»), встречается в десять раз чаще, чем десятое по частоте слово «was», примерно в сто раз чаще, чем сотое по частоте слово «who», и в тысячу раз чаще, чем тысячное слово «spirals».
Когда я составил на основе данных о частоте и ранге слов график (первый график, представленный ниже), оказалось, что соответствующие точки лежат близко к координатным осям. График, отображающий обратно пропорциональную зависимость, всегда представляет собой L-образную кривую. Сначала кривая резко снижается, а затем быстро выравнивается и переходит в своего рода «длинный хвост». Это говорит о том, что одни слова встречаются в тексте в огромном количестве, а другие почти не используются. (На самом деле во всех текстах, независимо от их объема, около 50 процентов слов употребляются только один раз. В данной книге таких слов 51 процент [8].)
Распределение частотности слов в книге «Алекс в Зазеркалье»
На нижнем графике отображены те же данные, но изменен масштаб. Расстояние от 1 до 10, от 10 до 100 и от 100 до 1000 теперь одинаковое на обеих осях, другими словами, мы имеем двойной логарифмический масштаб. График, напоминающий провисший кабель, как по волшебству превратился в туго натянутую струну. Появился некий математический порядок: точки графика образуют почти идеальную прямую.
Прямая линия на графике, построенном в двойном логарифмическом масштабе, — доказательство того, что эти данные подчиняются закону Ципфа (в Приложении 2 я объясню почему). С математической точки зрения прямая линия более полезна, чем кривая с длинным хвостом, поскольку ее свойства легче анализировать. В частности, у прямой есть постоянный градиент. Мы вернемся к понятию градиента немного позже, а пока вам нужно знать только то, что градиент — это степень наклона: отношение расстояния, покрытого прямой по вертикали, к расстоянию по горизонтали. Если нарисовать линию наилучшего соответствия и определить ее градиент, он и будет представлять собой константу a в уравнении закона Ципфа. Я рассчитал градиент линии на расположенном выше графике. Он чуть больше единицы, а это значит, что по сравнению с Джеймсом Джойсом я чаще использую самые распространенные слова и реже — наименее распространенные.
При более близком рассмотрении не все точки на графике попадают на прямую линию. Некоторые отклоняются от нее, особенно примерно двадцать слов, встречающихся в тексте чаще всего. Однако в большинстве случаев точки находятся очень близко к этой линии. Поразительно то, что порядковый номер подавляющего количества слов в этой книге позволяет достаточно точно определить частоту их использования, и наоборот.
Профессор Ципф обнаружил такую же обратно пропорциональную зависимость еще в одной книге — книге переписи населения США 1940 года. Однако в этот раз он подсчитывал не частотность слов, а численность населения крупных американских городов.
Муниципальный район
Ранг
Население
Нью-Йорк / северо-восток Нью-Джерси
1
12 миллионов
Кливленд
10
1,2 миллиона
Гамильтон/Мидлтаун
100
0,11 миллиона
В это трудно поверить, но и здесь прослеживается та же закономерность. В Нью-Йорке (самом крупном городе США) численность населения в десять раз больше, чем в Кливленде (десятом по величине городе), и в сто раз больше, чем в Гамильтоне (сотом по величине городе). Никто не предлагал американцам расселяться с такой точностью. Тем не менее их выбор подчинялся строгой закономерности. Это происходит и сейчас. На самом деле все мы поступаем именно так. На представленных ниже графиках в двойном логарифмическом масштабе отображены данные о численности населения американских городов и их ранге (порядковом номере), взятые из отчетов о переписи населения США 2000 года, а также данные о численности населения крупнейших городов мира.
Распределение численности населения крупнейших городов США в 2000 году (график сверху) и крупнейших городов мира в 2013 году (график снизу)
Все точки стремятся к прямой линии, как послушные муравьи. Это означает, что здесь, как и прежде, применимо все то же общее уравнение:
На этот раз Ципф тоже пришел к выводу, что для городов и стран значение константы a почти или равно 1. В случае американских городов это значение составляет 0,947, для крупнейших городов мира — 1,156, а в случае переписи населения США 1940 года равно 1.
Безусловно, имеются и отклонения, особенно в наиболее крупных странах и городах. Например, в действительности в Индии (второй самой густонаселенной стране мира) жителей больше, чем можно было бы ожидать, опираясь на закон Ципфа. Однако волатильность (изменчивость значений) в начале упорядоченного списка неизбежна, поскольку там намного меньше данных. Можно предположить, что города и страны обходят друг друга в рейтинге по мере изменения численности населения под влиянием экономических, социальных и экологических факторов. Когда подобные изменения происходят в странах, занимающих самые высокие места в списке, отклонение от прямой линии становится гораздо заметнее. Тем не менее такой разброс данных в верхней части графика не должен приуменьшать важности точного расположения точек далее вниз по линии. Из этого следует, что частота встречаемости слов, а также численность населения городов и стран подчиняются универсальному закону.
Для Ципфа обнаружение одной и той же элементарной математической закономерности в разных контекстах было равносильно духовному пробуждению. «В явлениях повседневной жизни мы находим единство, упорядоченность и равновесие, внушающие нам веру в высшую разумность всего сущего, целостность которого пребывает за пределами наших полномочий и понимания», — писал Ципф. Он предложил принцип наименьших усилий в качестве теоретической базы для своих эмпирических наблюдений. Мы часто используем ограниченное количество слов, потому что нашему мозгу так легче; мы живем в больших городах, потому что нам так удобнее. Однако Ципф так и не смог предоставить убедительное математическое обоснование закона, как, впрочем, и никто сто лет спустя. Многие пытались это сделать, и хотя некоторые даже добились определенных успехов в данном направлении, причина, почему закон действует, по-прежнему остается загадкой. Математические модели часто подвергают критике за то, что они слишком упрощают сложные закономерности. В случае закона Ципфа верно обратное утверждение: математические модели невероятно сложны, а закономерность настолько проста, что ее может понять даже ребенок.
В начале ХХ века итальянский экономист Вильфредо Парето заявил, что распределение богатства среди населения подчиняется следующему закону:
Очевидно, что с математической точки зрения закон Парето эквивалентен закону Ципфа. Если составить список всех граждан страны в порядке уменьшения их богатства, график распределения последнего будет выглядеть точно так же, как представленный выше график частоты использования слов в этой книге. В целом самый богатый человек страны существенно богаче второго наиболее состоятельного человека, а тот, в свою очередь, намного богаче (хотя и чуть меньше, чем в предыдущем случае) третьего наиболее состоятельного человека, который гораздо богаче (хотя и чуть меньше, чем в предыдущем случае) четвертого наиболее состоятельного человека и т. д. В общем, к категории богачей относится крохотное меньшинство населения, тогда как его подавляющее большинство живет в бедности. Парето вывел этот закон на основании данных из многих стран и череды столетий. И он по-прежнему актуален.
Обратно пропорциональная зависимость описывает ситуации, в которых имеет место предельное, вопиющее неравенство. В случае закона Ципфа крохотный процент слов выполняет почти всю работу. В случае закона Парето в руках крохотного процента населения сосредоточена основная часть капитала. В 1906 году Парето написал, что в Италии около 20 процентов людей владеют 80 процентами земли. Это меткое замечание вошло в массовую культуру как «принцип Парето», или закон 80/20, согласно которому 20 процентов причин порождает 80 процентов следствий — фраза, отражающая несправедливость жизни. По мнению Ричарда Коха, автора книги о законе Парето [9], 20 процентов сотрудников обеспечивают 80 процентов результата; 20 процентов покупателей приносят 80 процентов прибыли; 80 процентов счастья мы испытываем за 20 процентов времени. Ричард Кох пишет, что закон 80/20 — это ключ к управлению своей жизнью, поскольку мы можем преодолеть трудности современного мира только одним способом: сосредоточившись на 20 процентах самых важных вещей. Закон Парето хорошо запоминается благодаря своей арифметической точности: 80 + 20 = 100. Однако такая точность не всегда применима к математической модели, описываемой этим законом, так как обратно пропорциональная зависимость во многих случаях носит приближенный характер.
Как закон Парето, так и закон Ципфа гласят, что одна величина обратно пропорциональна определенной степени другой величины.
Если переменные величины — x и y, то общая формула этой математической зависимости выглядит так:
Уравнения данного типа обозначаются термином «степенной закон». Имена Ципфа и Парето носят два самых известных закона подобного рода, но за последние годы действие степенных законов проявилось в очень большом количестве самых разных ситуаций. Например, по результатам проведенного в Швеции опроса по поводу сексуальных привычек была установлена такая закономерность [10]:
процент мужчин, имевших минимум n половых партнеров на протяжении прошлого года
Символ ≈ говорит не о том, что шведские женщины предпочитают мужчин с волнистыми усами. Он означает «приблизительно равно» и используется здесь потому, что данное уравнение обеспечивает наилучшее приближение. Примерно один из тысячи шведских мужчин имеет в течение года двадцать половых партнеров, в то время как большинство — только одного. Если продолжить линию максимального приближения, то получится, что где-то один из десяти тысяч мужчин имеет около шестидесяти половых партнеров в год.
В любви — как на войне. Исследователи, изучавшие случаи насилия в зонах военных конфликтов, выявили следующую закономерность [11]:
процент инцидентов во время гражданской войны в Колумбии, в которых произошло не менее n смертей и ранений
Массовая гибель людей в результате военных действий наблюдается гораздо реже по сравнению с числом единичных случаев. Подобные выводы были сделаны в ходе анализа и сравнения данных о разных войнах. В мире велось всего несколько войн, повлекших за собой гибель миллионов людей; сотни тысяч людей лишились жизни в чуть большем количестве войн; еще больше войн унесло жизни десятков тысяч людей и т. д.
Чарльз Дарвин написал за свою жизнь тысячи писем, многие из которых представляли собой ответ на полученные письма. На большинство из них он отвечал в первый же день, а чтобы ответить на другие, ему понадобились годы [12]:
вероятность того, что Чарльз Дарвин ответит на письмо за n дней
Мы отвечаем на электронные письма по такой же схеме: на большинство даем ответ немедленно, тогда как некоторые лежат в папке «Входящие» целую вечность.