В эксперименте в Йельском университете число 0 оказалось самым непопулярным, а за ним следовали 1 и 9 (верхняя граница, поскольку 10 отсутствовало). Это означает, что оценки в районе границ диапазона заслуживают наибольшего доверия. При взгляде на онлайновые результаты обращайте особое внимание на соотношение наименьшей (0 звезд) и наибольшей оценки (5 звезд). Если предположить, что они искренни, то именно этим людям нравится или не нравится продукт.
В отношении многих товаров количество недовольных не имеет значения, пока находится достаточно желающих совершить покупку. Альтернативное кино с высокой долей 5-звездочных оценок, вероятнее всего, понравится тем, кого привлекает имя режиссера или тема, а на количество 0-звездочных оценок можно не обращать внимания. Фильм не предназначен для того, чтобы понравиться кому угодно, и в сети найдется достаточно народу, любящего посмотреть «неправильное» кино. В случае широкой аудитории (например, блокбастера или семейного ресторана) 0-звездочные оценки более информативны. Они позволяют оценить вероятность отрицательного опыта.
Резюме: Как интерпретировать рейтинги, полученные с помощью краудсорсинга• Люди, которых просят назвать первое пришедшее в голову число в диапазоне от 1 до 10, чаще всего выбирают 7. Это может исказить оценки фокус-групп и рейтинги, полученные в интернете с помощью краудсорсинга.
• Доля участников, присваивающих продукту наивысший рейтинг 10 (или 5 из 5 возможных звезд), может точнее отражать потенциальные продажи продукта, чем усредненная оценка.
11 Как распознать фальшивые числа
Марк Нигрини, выросший в южно-африканском Кейптауне, был очарован магией цифр. Он приехал на учебу в США, надеясь получить докторскую степень в области финансов. В апреле 1989 г. он учился в аспирантуре и подбирал тему для будущей диссертации. Однажды в университете Цинциннати он наткнулся на краткое упоминание закона Бенфорда. «В тот же вечер я отправился в библиотеку и взял статью Бенфорда», – вспоминал Нигрини. Знакомство с ней изменило всю его жизнь.
Физик Фрэнк Бенфорд в 1920-х гг. работал в компании General Electric в городе Скенектади. В то время для научных расчетов использовались таблицы логарифмов. Бенфорд заметил: первые страницы книжки с таблицами логарифмов истрепались от многократного использования, а последние выглядели почти новыми. Именно это случайное наблюдение, а не работа, за которую ему платила General Electric, послужило причиной того, что имя Бенфорда осталось в истории.
Числа, которые требовались Бенфорду, обычно начинались с маленьких величин, а именно они находятся в начале логарифмических таблиц. Так, например, Бенфорд обнаружил, что около 30 процентов чисел, с которыми имеют дело ученые и инженеры, начинаются с цифры 1. И только 5 процентов – с цифры 9. Поэтому последние страницы книги с таблицами логарифмов оставались практически нетронутыми.
Бенфорд рассказал об открытии химику Ирвингу Ленгмюру (будущему лауреату Нобелевской премии). Ленгмюр убедил его опубликовать статью на эту тему. Отличавшийся методичностью Бенфорд исследовал непонятную закономерность еще десять лет. Выяснилось, что она справедлива не только для научных расчетов. Бенфорд попытался проанализировать первые цифры бейсбольной статистики и обнаружил такое же распределение. Он выписал все числа, встречавшиеся в журнале Reader’s Digest. То же самое. Счет теннисных матчей, котировки на бирже, длина рек, атомные веса, счета за электричество на Соломоновых островах и числа, встречающиеся на первой странице New York Times – все подчинялось одной и той же закономерности. Похоже на теорию заговора. Все взаимосвязано.
Наконец, в 1938 г. Бенфорд опубликовал результаты в журнале Proceedings of the American Philosophical Society. В статье он привел точную формулу для вычисления пропорции чисел, начинающихся с каждой цифры. Вот они:
Вы можете спросить, почему здесь отсутствует цифра 0. Бенфорд анализировал только первые ненулевые цифры. Поэтому числа 7129600 и 0,000072002 начинаются с одной и той же цифры 7.
Формула Бенфорда также предсказывает распределение вторых, третьих и так далее цифр числа. В этих случаях уже присутствует 0. Однако преобладание низких величин здесь уже менее выражено. По этой причине выявленную Бенфордом закономерность иногда называют законом первой цифры.
Сам Бенфорд выбрал для статьи другое название, «Закон аномальных чисел» (The Law of Anomalous Numbers). В настоящее время он известен как закон Бенфорда. Как выяснилось, это несправедливо. Данное явление обнаружил (и опубликовал статью) другой, гораздо более известный ученый – астроном Саймон Ньюком. Его статья в номере журнала American Journal of Mathematics за 1881 г. начиналась с констатации факта: «То, что десять цифр встречаются с разной частотой, должно быть очевидно всякому, кто часто пользуется логарифмическими таблицами и замечает, насколько первые страницы истрепаны сильнее последних».
Мне кажется, это очередное доказательство того, как трудно придумать что-то свое и как часто остаются незамеченными даже оригинальные идеи. По какой-то причине о статье Ньюкома вскоре забыли, а статья Бенфорда получила поддержку. Одно из возможных объяснений в том, что статья Бенфорда «выехала» на знаменитой статье физика Ханса Бете, которая была помещена в журнале сразу же вслед за ней.
В настоящее время известно, что закон Бенфорда применим ко всем видам данных, которые не догадался проверить даже сам неутомимый автор. Известно также, что закон Бенфорда не применим ко многим числовым комбинациям (телефонные номера, обозначение возраста и веса, номера карточек социального страхования, коэффициенты умственного развития, победившие номера лотерейных розыгрышей и почтовые индексы). Примером может служить вес взрослых американцев. Совершенно очевидно, что 1 – самая распространенная первая цифра, ее доля гораздо выше, чем 30 процентов, предсказанных законом Бенфорда. Самая редкая – шестерка, даже реже, чем в распределении Бедфорда: немногие мужчины весят от 60 до 69 и от 600 до 699 фунтов.
Неприменим закон Бенфорда и к назначенным номерам, таким как номер телефона или карточки социального страхования. Тот, кто назначает номера, использует все или почти все возможные варианты. Номера, начинающиеся на 1, встречаются так же часто, как и те, которые начинаются с любой другой цифры.
Те, кто обладает математической интуицией, могут прийти к тому же выводу самостоятельно. Для всех остальных это неразрешимая загадка. Почему закон Бенфорда применим к номерам домов на улице, но не применим к почтовым кодам? Откуда в газете New York Times знают, будто числа, начинающиеся на 1, нужно упоминать в шесть раз чаще, чем те, которые начинаются на 9?
Закон Бенфорда справедлив для некоторых чисел, отражающих результаты измерений, например, городского населения или сумм, списанных с кредитных карт. Попробуем привести быстрое и интуитивное объяснение. Представьте, что вы положили на счет для инвестиционных операций 1000 долларов, которые удваиваются каждые десять лет. Первая цифра баланса вашего счета будет оставаться 1 на протяжении первых десяти лет. Сумма будет увеличиваться до 1100, 1200, 1300 долларов и так далее, до 1900, пока в конце первого десятилетия не достигнет 2000 долларов.
До следующего удвоения пройдет еще 10 лет. За это время сумма на счете постепенно увеличится с 2000 до 3000, а затем до 4000 долларов. Это значит, что на 2 и 3 в качестве первых цифр баланса счета приходится столько же времени, сколько на цифру 1.
В третьей декаде сумма на счете увеличится с $4000 до $8000, причем первыми цифрами будут 4, 5, 6 и 7. На протяжении четвертого десятилетия сумма увеличится до 16 000, и первыми цифрами сначала будут 8 и 9, а остальное время снова 1.
Итак, в сумме на инвестиционном счете 1 будет присутствовать больше времени, чем 2, 2 больше, чем 3, и так далее. Если выбрать случайный момент времени, то вероятность каждой из девяти цифр оказаться на первом месте будет точно соответствовать распределению Бенфорда.
В нашем мире есть множество вещей, от колоний микроорганизмов до социальных сетей, которые растут экспоненциально, хотя и не обязательно так занудно, как в моем примере. Но когда естественный рост рассеивает числа на несколько порядков величины, они приближаются к распределению Бенфорда. Если бы шимпанзе бросала дротик дартса в листок с финансовыми отчетами или ценами на бирже, то попадания с достаточной точностью соответствовали бы закону Бенфорда.
Закон Бенфорда напоминает, что числа – это искусственный способ отображения количественных соотношений в окружающем нас мире. Как писал сам Бенфорд, «в действительности это теория явлений и событий, а числа всего лишь играют незначительную роль безжизненных символов живого».
«Я подумал, что если предсказуемые закономерности для чисел действительно существуют, то аудиторы, наверное, смогут определить, какие данные соответствуют действительности, а какие вымышлены», – вспоминал Марк Нигрини.
Бухгалтеры и налоговые органы были бы рады иметь формулу для определения, какие цифры показаны честно, а какие нет. Нигрини быстро решил: его диссертация будет посвящена применению закона Бенфорда для выявления финансового мошенничества.
Он обнаружил, что после статьи Бенфорда на эту тему почти ничего не написано. Единственным, кто увидел практическую ценность открытия, оказался Хэл Вэриан (в настоящее время главный экономист Google). В 1972 г. Вэриан предложил использовать закон Бенфорда в качестве «индикатора чепухи». В политике решения основываются на сложных прогнозах издержек и выгод. Цифры в этих прогнозах должны соответствовать распределению Бенфорда, утверждал Вэриан. Если это не так, значит, составитель прогноза брал цифры с потолка или подгонял в соответствии со своими целями.
Вэриан не стал развивать эту идею – как и другие. Это подогрело энтузиазм Нигрини, но не его руководителя. «Он хотел бы, чтобы я был восьмидесятым ученым, исследовавшим этот вопрос», – объяснял Нигрини. Он настоял на теме диссертации, однако одобрение получил только после того, как написал две трети текста. Четыре месяца спустя работа была закончена.
Идея Вэриана и Нигрини может быть проиллюстрирована. Имея массив чисел, вы можете нарисовать столбиковую диаграмму (гистограмму), показывающую, сколько раз каждая цифра появляется первой. Просто сосчитайте, сколько чисел начинается с цифры 1, сколько с 2 или 3, и так далее. Для честных данных, подчиняющихся закону Бенфорда, диаграмма будет выглядеть так:
Закон Бенфорда
Гладкая кривая – это закон Бенфорда в визуальной форме.
Блестящая идея Вэриана и Нигрини состояла в том, что люди, фальсифицирующие цифры, не знают о законе Бенфорда. У растратчика или налогового мошенника нет причин думать, что какая-либо цифра должна встречаться чаще, чем другие. Поэтому массив искусственных чисел должен иметь равномерное распределение первых цифр.
Как бы то ни было, это упрощенная идея. Эксперименты по имитации случайности (о них не было широко известно) уже показали, что в сфабрикованных числах все цифры почти никогда не используются в равной мере. Альфонс Чапанис представил гистограммы полученных результатов, и распределение в них равномерным не было.
Другая проблема в том, что честные финансовые данные чаще всего в точности соответствуют кривой Бенфорда, но иногда – нет. И заранее бывает трудно сказать, с каким случаем вы имеете дело. Одним из таких примеров могут служить данные продаж магазина, где все товары стоят 99 центов. Анализ выявит большое количество девяток. Как замечает Нигрини, это указывает, что цены выдуманы, специально разработаны людьми как часть маркетинговой стратегии. Но если вы руководите таким магазином, это ваша реальность, а не мошенничество. Можно найти множество других ситуаций, когда природа бизнеса способствует распределению первых цифр, не отвечающему закону Бенфорда – по абсолютно невинным причинам.
Тем не менее, основная идея Нигрини оказалась верна: придуманные цифры отличаются от настоящих. Он стал частым гостем в здании суда Цинциннати, где разбирал преступления, в которых фигурировали цифры.
Один из первых исследованных им случаев мошенничества произошел в Аризоне. Уэйн Джеймс Нельсон, 43-летний менеджер отделения государственного казначейства в Аризоне, начал короткую карьеру растратчика с того, что выписал чек на 1927,48 доллара от штата Аризона на имя фиктивного поставщика. За следующие несколько дней он выписал еще 22 фальшивых чека на общую сумму почти 1,9 миллиона долларов.
Будучи пойманным, Нельсон утверждал: он выписывал чеки из благородных побуждений, чтобы продемонстрировать уязвимость принятой в Аризоне системы предъявления чеков к оплате. Он просто «забыл» проинформировать сотрудников казначейства об этих недостатках, а деньги направлял на собственные счета.
Последние две цифры: 500 придуманных чисел
Первые цифры чеков растратчика
На первый взгляд в чеках, выписанных Нельсоном, присутствовали некоторые закономерности.
Нельсон был «анти-Бенфордом», как выразился Нигрини. Все суммы на чеках, за исключением двух, начинались с больших цифр 7, 8 и 9. Нельсон не превышал порога $100 000, вероятно, потому, что числа с шестью нулями привлекли бы нежелательное внимание.
Последние цифры чеков растратчика
Ниже приведена гистограмма первых цифр в чеках Нельсона.
Фальшивые числа обычно смешиваются с настоящими. Аудитор будет анализировать не только суммы фальшивых чеков (откуда ему знать, что они фальшивые?). Он проверит все чеки Нельсона или все суммы, проходившие через его отдел. Но даже в этом случае предпочтение Нельсоном цифр 8 и 9 в фальшивых счетах выделит цифры 8 и 9 и в общем массиве данных. И это влияние можно выявить.
Нигрини обнаружил: в чеках Нельсона проявляются те же типичные особенности, что и в остальных придуманных числах. Предположим, мы пытаемся подсчитать последние (самые правые) цифры в чеках. Это единицы центов, и с финансовой точки зрения они Нельсона явно не интересовали. Тем не менее, в них наблюдается определенная закономерность. Нельсон отдавал предпочтение таким последним цифрам, как 6 и 7. Цифра 4 вообще не встречается.
Эта гистограмма очень похожа на гистограммы Чапаниса. Точно так же, как добровольцы Чапаниса, Нельсон повторялся, не отдавая себе в этом отчета. В 23 чеках он умудрился повторить 87, 88, 93 и 96 в качестве двух первых цифр. Аналогично, в качестве центов повторялись числа 16, 67 и 83.
Внутренняя налоговая служба США продает исследователям информацию из налоговых деклараций, предварительно удалив личные данные. Нигрини приобрел 100 000 налоговых деклараций за 1985 и 1988 г. и начал анализировать их на университетской мини-ЭВМ VAX. Он хотел проверить, можно ли определить, кто из налогоплательщиков жульничает.
Многие записи в налоговой декларации представляют собой сумму, разницу или производную других записей. Рассматривать их нет смысла, поскольку компьютеры налоговой службы проверяют правильность вычислений. Другие записи подтверждаются документацией третьей стороны, например, форма W-2 для заработной платы или 1099-INT для дохода от процентов. Это обеспечивает полезную возможность сравнения. Нигрини обнаружил: данные о доходе от процентов с высокой точностью соответствуют закону Бенфорда. Однако выплаченные проценты не соответствовали кривой. В то время ипотечные заимодатели не сообщали о процентах в налоговую службу. Проценты по потребительскому кредиту подлежали вычету из налогооблагаемой базы (и тоже не подтверждались документами). Это означало, что налогоплательщики испытывали искушение преувеличить выплаченные проценты, надеясь, что их не проверят. Анализ Нигрини показал, что многие именно так и поступали.
Во время президентской кампании Билл Клинтон опубликовал свои налоговые декларации начиная с 1977 г. Нигрини сумел отбраковать из налоговых деклараций Клинтона 380 сумм дохода и 511 сумм вычетов, относящихся к системе доверия. Он не обнаружил ничего подозрительного, за исключением преобладания круглых чисел – весьма распространенное явление. Так, например, старый мужской костюм, пожертвованный благотворительной организации, был оценен в 100 долларов. Совершенно очевидно, что сумма эта приблизительна – одним из признаков служит круглое число. Но указать $100 – честнее, чем придумывать точную цену вроде $107,03.
Одним из первых, кто поверил Нигрини, был Роберт Бертон, главный финансовый инспектор из прокуратуры Бруклина. В 1995 г. Бертон использовал программное обеспечение Нигрини для анализа чеков семи компаний, подозреваемых в связях с преступным миром. Бертон обнаружил свидетельства придуманных чисел и после дальнейшего расследования обвинил в мошенничестве бухгалтеров и сотрудников, выписывавших чеки. Действия инспектора удостоились хвалебной статьи в Wall Street Journal. Закон Бенфорда был назван «инструментом, достойным Шерлока Холмса». Приводились также слова Бертона: «В точку. Это мошенничество».
Статья в Wall Street Journal принесла славу закону Бенфорда, но в то же время породила миф, что он представляет собой нечто вроде волшебного детектора лжи. С тех пор метод Нигрини получил широкое распространение в правоохранительных и налоговых органах, а также в частном секторе. Сегодня повседневный анализ данных о потребителях позволяет без труда выделить для дальнейшего изучения подозрительные числа. Тем не менее, анализ цифр остается относительно новым методом, недостаточно проверенным. Очень важно понимать, чего можно, а чего нельзя добиться с его помощью.