Становится понятно, что корреляции на основе достоверных данных превосходят большинство интуитивно понятных причинно-следственных связей, то есть результат «быстрого мышления». Растет и количество случаев, когда быстрый и понятный корреляционный анализ оказывается более полезным и, очевидно, более эффективным, чем медленное причинное мышление, воплощенное в виде тщательно контролируемых (а значит, дорогостоящих и трудоемких) экспериментов.
В последние годы ученые пытались снизить затраты на такие эксперименты, например, искусно сочетая соответствующие опросы для создания «псевдоэкспериментов». Благодаря этому можно было повысить рентабельность некоторых исследований причинности. Однако эффективность корреляций трудно превзойти. Кроме того, как мы говорили, корреляционный анализ сам по себе служит помощником в таких исследованиях, подсказывая экспертам наиболее вероятные причины.
Таким образом, наличие данных и статистических инструментов преобразует роль не только быстрых, интуитивно улавливаемых причинно-следственных связей, но и взвешенного причинного мышления. Когда нам нужно исследовать не само явление, а именно его причину, как правило, лучше начать с корреляционного анализа больших данных и уже на его основе проводить углубленный поиск причинно-следственных связей.
На протяжении тысячелетий люди пытались понять принципы мироздания, стараясь найти причинно-следственные связи. Какую-то сотню лет назад, в эпоху малых данных, когда не было статистики, оперировали категориями причинности. Но все меняется с приходом больших данных.
Причинно-следственные связи не утратят своей актуальности, но перестанут быть главным источником знаний о том или ином предмете. В эпоху больших данных то, что мы считаем причинностью, на самом деле не более чем частный случай корреляционной связи. Хотя порой мы по-прежнему хотим выяснить, объясняют ли причинно-следственные связи обнаруженную корреляцию. Большие данные, напротив, ускоряют корреляционный анализ. И если корреляции не заменяют исследование причинности, то направляют его и предоставляют нужную информацию. Наглядным примером служат загадочные взрывы канализационных люков на Манхэттене.
Задача с канализационными люками
Ежегодно несколько сотен люков в Нью-Йорке начинают тлеть из-за возгорания частей канализационной инфраструктуры. От взрыва чугунные крышки люков весом до 300 фунтов взмывают на высоту в несколько этажей, а затем с грохотом падают, подвергая опасности окружающих.
Con Edison, коммунальная компания, которая занимается электроснабжением Нью-Йорка, из года в год проводит регулярные проверки и техобслуживание люков. Раньше специалисты в основном полагались на волю случая, надеясь, что взрывоопасными окажутся именно те люки, которые планируется проверить. Такой подход был едва ли полезнее, чем блуждание по Уолл-стрит. В 2007 году компания Con Edison обратилась к статистикам Колумбийского университета, расположенного на окраине города, в надежде, что статистические данные о сети (например, сведения о предыдущих неполадках и инфраструктурных соединениях) помогут спрогнозировать, какие люки вероятнее всего небезопасны, и это позволит компании целенаправленно использовать свои ресурсы.
Это сложная проблема, связанная с большими данными. Общая протяженность подземных кабелей в Нью-Йорке — 94 000 миль (достаточно, чтобы обхватить Землю 3,5 раза). В одном только Манхэттене около 51 000 люков и распределительных коробок. Часть этой инфраструктуры построена еще во времена Томаса Эдисона (тезки компании), а один из 20 кабелей заложен до 1930 года. Сохранились записи, которые велись с 1880 года, но не систематизированные, поскольку их не собирались анализировать. Данные предоставили бухгалтерия и диспетчеры аварийной службы, которые вручную писали «заявки на устранение неисправностей». Назвать их беспорядочными — ничего не сказать. К примеру, один лишь термин «распределительная коробка» (англ. service box), обозначающий обычную часть инфраструктуры, был записан в 38 вариантах, в том числе: SB, S, S/B, S.B, S?B, S.B., SBX, S/BX, SB/X, S/XB, /SBX, S.BX, S &BX, S?BX, S BX, S/B/X, S BOX, SVBX, SERV BX, SERV-BOX, SERV/BOX и SERVICE BOX. Распознать все это предстояло компьютерному алгоритму.
«Взглянув на это, мы подумали, что нам не удастся проанализировать данные, поскольку они были невероятно сырыми, — вспоминает Синтия Рудин, статистик и руководитель проекта. — У меня имелись распечатки таблиц для всех видов кабелей. Вытаскивая какие-то из них, мы не могли удержать их в руках — все тут же летело на пол. И в этом всем нужно было разобраться. Без какой-либо документации. Мне оставалось только думать, как из всего этого извлечь пользу».
Для работы Синтии Рудин и ее команде следовало использовать все данные, а не только выборку, поскольку любой из десятков тысяч люков грозил оказаться бомбой замедленного действия. Таким образом, только подход «N = всё» мог прийти на помощь. Совсем не мешало бы продумать причинно-следственные связи, но на это ушла бы сотня лет, притом что правильность и полнота результатов оставались бы сомнительными. Лучшим решением этой задачи было найти корреляции. Синтию интересовал не столько вопрос почему, сколько что, хоть она и осознавала, что, когда команде феноменальных специалистов по статистике придется отвечать перед руководством Con Edison, им придется обосновать свой рейтинг. Прогнозы выполнялись компьютерами, но их потребителем выступал человек. А людям, как правило, нужны причины, чтобы понять.
Интеллектуальный анализ данных обнаружил те самые «золотые самородки», которые Синтия Рудин надеялась найти. Очистив беспорядочные данные для обработки с помощью компьютера, команда определила 106 прогностических факторов основной аварии, связанной с канализационными люками. Затем из них отобрали несколько самых сильных сигналов. Проверяя электросеть Бронкса, специалисты проанализировали все имеющиеся данные вплоть до середины 2008 года. Затем на основе этих данных спрогнозировали проблемные участки с расчетом на 2009 год и получили блестящий результат: из 10% первых по списку люков 44% были связаны с серьезными происшествиями.
Основными факторами оказались возраст кабелей и наличие неполадок в люках в прошлом. Как ни странно, эти сведения были полезными, поскольку легко объясняли руководству Con Edison, на чем основан рейтинг. Но, помилуйте, возраст и неполадки в прошлом? Разве это не достаточно очевидно? И да и нет. С одной стороны, как любил повторять математик Дункан Уоттс (в своей книге[66]), «все очевидно, когда вы уже знаете ответ». С другой стороны, важно помнить, что модель изначально содержала 106 прогностических факторов. И не так уж очевидно, как их взвесить, а затем ранжировать десятки тысяч люков, учитывая множество переменных, связанных с каждым фактором. В итоге получаются миллионы точек данных, притом что сами данные изначально непригодны для анализа.
Этот случай наглядно демонстрирует, как данные находят новое применение для решения сложных задач реального мира. Для этого понадобилось изменить подход к работе и использовать все данные, которые удалось собрать, а не только их небольшую часть. Нужно было принять естественную беспорядочность данных, а не рассматривать точность как высший приоритет. К тому же пришлось рассчитывать на корреляции, не зная полностью причин, которые легли в основу прогнозирования.
Конец теории?
Большие данные меняют наш подход к познанию мира. В эпоху малых данных мы руководствовались гипотезами о том, как устроен мир, а затем старались проверить их путем сбора и анализа данных. В дальнейшем наше понимание будет зависеть от изобилия данных, а не от гипотез. Получая и анализируя данные, мы увидим связи, о которых и не подозревали раньше.
Гипотезы часто являются продуктом теорий естественных и социальных наук, которые помогают объяснить, а иногда и спрогнозировать события окружающего мира. По мере того как мир переходит от гипотез к данным, велико искушение решить, что теории тоже больше не нужны.
В 2008 году главный редактор журнала Wired Крис Андерсон высказал мнение, что «ввиду огромного потока данных научные методы уже неактуальны». В статье «Век петабайтов» он заявил, что это означает не что иное, как «конец теории». Традиционный процесс научного открытия (проверка гипотезы на достоверность с помощью модели основополагающих причин), по утверждению Андерсона, уже отжил свое и заменен статистическим анализом корреляций, в котором нет места теории.[67]
В подтверждение Андерсон пояснил, что квантовая физика стала практически полностью теоретической областью, поскольку эксперименты слишком сложные, дорогостоящие и слишком масштабные для реализации. Эта теория, как считает Андерсон, уже не имеет ничего общего с действительностью. Чтобы объяснить новый метод, он приводит в пример поисковую систему Google и генетическое секвенирование. «Это мир, в котором большие объемы данных и прикладная математика заменяют любые другие нужные инструменты, — пишет Андерсон. — При достаточном количестве данных числа говорят сами за себя. И петабайты позволяют сказать, что корреляций вполне достаточно».
В подтверждение Андерсон пояснил, что квантовая физика стала практически полностью теоретической областью, поскольку эксперименты слишком сложные, дорогостоящие и слишком масштабные для реализации. Эта теория, как считает Андерсон, уже не имеет ничего общего с действительностью. Чтобы объяснить новый метод, он приводит в пример поисковую систему Google и генетическое секвенирование. «Это мир, в котором большие объемы данных и прикладная математика заменяют любые другие нужные инструменты, — пишет Андерсон. — При достаточном количестве данных числа говорят сами за себя. И петабайты позволяют сказать, что корреляций вполне достаточно».
Статья вызвала оживленное обсуждение, хотя Андерсон быстро отказался от своих смелых заявлений.[68] Но его основная идея достойна внимания. По сути, он считает, что до недавнего времени в стремлении проанализировать и понять окружающий мир нам требовались теории, которые проверялись на достоверность. В эпоху больших данных, напротив, основная идея состоит в том, что нам больше не нужны теории — достаточно взглянуть на данные. Предполагается, что все обобщенные правила (о том, как устроен мир, как ведут себя люди, что покупают потребители, как часто ломаются детали и т. д.) могут утратить свою актуальность, когда в ход идет анализ больших данных.
«Конец теории» позволяет предположить: несмотря на то что предметные области, такие как физика и химия, полны теорий, анализ больших данных не нуждается в каких-либо концептуальных моделях. Но это абсурд!
Большие данные имеют теоретическую основу. При анализе больших данных используются статистические и математические теории, а иногда и теоретические знания из области компьютерных наук. Да, это не теории о причинной динамике того или иного явления (например, гравитации), но все же теории! И, как было показано ранее, модели на основе этих теорий, лежащих в основе анализа больших данных, открывают полезные возможности прогнозирования. На самом деле анализ больших данных может предложить свежий взгляд и новые идеи именно потому, что не обременен рамками традиционного мышления и присущими ему предубеждениями, которые неявно представлены в теориях конкретной области.
Поскольку анализ больших данных основан на теориях, эту основу невозможно игнорировать — более того, нужно признать, что она тоже влияет на результат. Все начинается с того, как мы выбираем данные. Их сбор может быть обусловлен удобством (доступны ли данные) или экономией (можно ли получить данные по дешевке). Наш выбор в данном случае зависит от теорий. Как полагают Дана Бойд[69] и Кейт Кроуфорд,[70] наши находки зависят от того, что мы выбираем. В конце концов, специалисты Google использовали в качестве закономерности условия поиска, связанные с гриппом, а не с размерами обуви. Точно так же, анализируя данные, мы выбираем инструменты, которые опираются на теории. Наконец, интерпретируя результаты, мы снова применяем теоретические знания. Эпоха больших данных отнюдь не лишена теорий — они повсюду, со всеми вытекающими последствиями.
Большие данные не предрекают «конец теории», но принципиально меняют наше представление об окружающем мире. Обществу предстоит еще ко многому привыкнуть ввиду этих изменений. Многие учреждения столкнутся с новыми трудностями. Но огромные преимущества, которые мы получим, делают такой компромисс не только целесообразным, но и неизбежным. При этом следует отметить, как это произойдет. Большинство специалистов в области высоких технологий, поскольку сами занимаются их созданием, сказали бы, что все дело в новых инструментах — от быстрых чипов до эффективного программного обеспечения. Однако эти инструменты не настолько важны, как можно подумать. Более глубокая причина сложившихся тенденций лежит в том, что у нас появилось намного больше данных, так как стало фиксироваться больше факторов действительности. Об этом — в следующей главе.
Глава 5 Датификация
Мори Мэтью Фонтейн был многообещающим офицером военно-морского флота США. Получив новое назначение, в 1839 году он направился на бриг Consort. Его дилижанс внезапно съехал с дороги, опрокинулся, и Мори вылетел наружу. Жестко приземлившись, он сломал бедренную кость и вывихнул колено. Местный врач вправил ему коленный сустав, но бедренная кость срослась неправильно, и через несколько дней ее потребовалось повторно ломать. Из-за травм 33-летний Мори начал прихрамывать и стал непригоден к морской службе. Спустя почти три года, потраченных на оздоровление, он был назначен на офисную службу в ВМФ в качестве руководителя отдела со скучным названием «Депо карт и приборов».
И эта должность подошла ему как нельзя лучше! Будучи молодым штурманом, Мори задавался вопросом, почему корабли движутся по водной глади зигзагообразно, а не по прямой. Задавая этот вопрос капитанам, он слышал в ответ, что намного лучше держаться знакомого курса, чем рисковать и идти по малознакомому, который таит в себе скрытые опасности. Океан считался непредсказуемым царством, полным неожиданностей, волн и порывов ветра.
Имея опыт путешествий, Мори знал, что это не совсем так. Он во всем искал систему. Находясь в просторном порту в Вальпараисо (Чили), он заметил, что ветры дуют с точностью часов. Вечерний сильный ветер резко затихал на закате и сменялся легким бризом, будто кто-то щелкнул выключателем. Во время другого рейса Мори пересек теплые ярко-синие воды Гольфстрима, которые текут между темными стенами морских вод Атлантики по одному и тому же пути, словно река Миссисипи. Португальцы и вправду веками плавали по Атлантике, опираясь на постоянные восточные и западные ветры — пассаты (от древнеангл. «путь» или «курс», который стал ассоциироваться с торговлей).
Всякий раз, оказываясь в новом порту, мичман Мори отправлялся на поиски старых морских капитанов, чтобы перенять знания, основанные на опыте, который передавался из поколения в поколение. Так он узнал о приливах, ветрах и морских течениях, действующих с определенной закономерностью, о которой не прочтешь ни в одной книге и которой не увидишь ни на одной карте, что выпускались для моряков военно-морским флотом. Вместо этого в ВМФ полагались на карты порой столетней давности, многие из которых содержали значительные упущения или откровенные неточности. Занимая новую должность начальника депо карт и приборов, Мори стремился исправить это положение.
Со вступлением на пост он пополнил депо барометрами, компасами, секстантами и хронометрами. Он обратил внимание на множество хранившихся здесь книг по морскому делу, карт и схем. Среди материалов были заплесневелые ящики, забитые старыми журналами со всех прошлых плаваний капитанов ВМС. Предшественники рассматривали их как мусор, но Мори отряхнул пыль с покрытых пятнами морской соли книг и заглянул внутрь. Увиденное не оставило его равнодушным.
Здесь была как раз нужная информация: записи о ветре, водах и погоде в определенных точках, расписанные по датам. Некоторые из них были не слишком ценными, зато множество других изобиловали полезной информацией. Сведя их, Мори понял, что можно создать совершенно новую форму навигационной карты. Журналы были бессистемными. С чудаковатыми стишками и набросками на полях, они порой казались попыткой спастись от скуки в пути. Но были и сведения, которые пригодились. При помощи десятков «расчетчиков» (так назывались те, кто занимался расчетом данных) Мори начал трудоемкий процесс сведения информации, которая хранилась в истрепанных журналах.
Мори объединил данные и разделил всю Атлантику на блоки по пять градусов долготы и широты. Он отметил температуру, скорость и направление ветра и волн, а также соответствующий месяц, поскольку тенденции разнились в зависимости от времени года. Объединенные данные показывали определенные тенденции и указали более удачные маршруты.
Из поколения в поколение моряки передавали советы отправлять суда то в спокойные воды, то навстречу встречным ветрам и течениям. На одном из распространенных маршрутов — из Нью-Йорка в Рио-де-Жанейро — моряки, как правило, боролись со стихией, а не союзничали с ней. Американских шкиперов учили избегать опасных плаваний вдоль пролива к югу от Рио, поэтому суда легко скользили по юго-восточному курсу, а по пересечении экватора меняли его на юго-западный. Пройденное расстояние равнялось двум маршрутам через всю Атлантику. Как оказалось, в этом не было необходимости: они могли спокойно придерживаться прямого курса на юг.
Для большей точности Мори нужна была дополнительная информация. Он создал стандартную форму для регистрации данных судов и обязал все суда военно-морского флота США заполнять ее и сдавать по возвращении. Поскольку капитаны торговых судов жаждали получить его карты, Мори настоял, чтобы взамен они пустили в оборот свои журналы (тем самым образовав раннюю версию вирусной социальной сети). Мори объявил, что «каждое судно, которое выходит в открытое море, отныне может рассматриваться как плавающая обсерватория, храм науки». Для уточнения карт он искал другие точки данных (так же на основе алгоритма вычисления рейтингов веб-страниц PageRank была создана система Google, учитывающая больше сигналов). Мори поручил капитанам периодически бросать в море бутылки с записками, в которых указывать день, должность, преобладающие ветра и течения, а также вылавливать все бутылки, которые встречаются им на пути. Многие корабли вывешивали специальный флаг, чтобы показать, что они участвуют в обмене информацией (предвестники значков-ссылок «поделиться», которые отображаются на некоторых веб-страницах).