Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - Виктор Майер-Шенбергер 11 стр.


На основе данных сами собой вырисовывались естественные морские пути, где ветры и течения были особенно благоприятными. Карты Мори, как правило, сокращали долгое путешествие на треть, обеспечивая купцам значительную экономию. «Пока я не взял на вооружение ваш труд, я пересекал океан с завязанными глазами», — с благодарностью писал один из капитанов. Даже бывалые моряки, которые отвергали новомодные карты и полагались на старые пути, выполняли полезную функцию: если на их путешествие уходило больше времени или они попадали в беду, это служило лишним доказательством в пользу системы Мори. К моменту публикации своей магистерской работы «Физическая география моря» в 1855 году Мори успел определить координаты 1,2 миллиона точек данных. «Таким образом, молодой моряк, вместо того чтобы брести на ощупь вперед, пока не наберется опыта… здесь сразу нашел бы рекомендации, основанные на опыте тысяч штурманов»,[71] — писал Мори.

Его работа имела огромное значение для закладки первого трансатлантического телеграфного кабеля. А после трагического столкновения в открытом море он быстро разработал системы судоходных путей, которые используются по сей день. Он даже применил свой метод к астрономии: с открытием планеты Нептун в 1846 году Мори выдвинул прекрасную идею пересмотреть все архивные записи, где планета ошибочно упоминается как звезда, что позволило установить ее орбиту.

Выходец из Вирджинии, Мори редко упоминается в источниках американской истории. Возможно, это потому, что он ушел из флота во время Гражданской войны в США и служил шпионом в Англии на благо Конфедерации. Но несколькими годами ранее, прибыв в Европу, чтобы заручиться международной поддержкой для своих карт, в четырех странах Мори был посвящен в рыцари, а еще в восьми — награжден золотыми медалями, включая награду Святого Престола. И теперь лоцманские карты, изданные военно-морским флотом США, носят его имя.

Коммодор[72] Мори одним из первых осознал основополагающий принцип больших данных: огромный корпус данных обладает особой ценностью, которой нет в меньших количествах. Более того, он понял, что заплесневелые журналы ВМФ на самом деле представляют собой «данные», если из них извлечь и свести в таблицы соответствующую информацию. При этом он впервые использовал данные, в частности те сведения, которые никому не представлялись ценными, повторно. Подобно Орену Эциони из Farecast, который с помощью старых сведений о ценах в авиационной отрасли создал прибыльный бизнес, или инженерам Google, применившим старые поисковые запросы, чтобы понять распространение вспышек гриппа, Мори взял целенаправленно созданную информацию (сведения о местоположении для безопасного путешествия) и преобразовал ее.

Его метод, в целом аналогичный современным методам работы с большими данными, был поразительным, учитывая, что Мори реализовывал его с помощью карандаша и бумаги. Это значит, что использование данных появилось намного раньше оцифровки. Сегодня мы часто объединяем эти понятия. Однако важно их различать. Уяснить, как данные получают из самых неожиданных областей, нам поможет более современный пример.

Сигеоми Косимицу, профессор Института передовых промышленных технологий в Токио, сумел извлечь данные из параметров, соотнесенных с ягодицами. Мало кому придет в голову, что сидячие позы несут в себе информацию, но это так. Контуры тела, позу и распределение веса сидящего человека можно оценить количественно и свести полученные цифры в таблицу. С помощью датчиков, размещенных в 360 разных точках сиденья автомобиля, Косимицу и группа инженеров снимают показатели давления, которое оказывают ягодицы водителя, оценивая каждую точку по шкале от 0 до 256 баллов. Получается цифровой код, уникальный для каждого человека. В ходе судебного разбирательства эта система способна отличить одного человека от другого с точностью до 98%.

Это исследование проводится не ради забавы. Технологию планируется использовать в качестве противоугонной системы автомобилей. Оборудованный такой системой автомобиль способен распознать «чужака» за рулем и потребовать пароль для запуска двигателя. Преобразование поз в данные представляет собой практичную услугу населению и потенциально прибыльный бизнес. Объединение данных может выявить связь между позой водителя и безопасностью на дорогах, например зафиксировать изменение позы перед дорожно-транспортным происшествием. Система способна также «почувствовать» замедление реакции из-за утомления и послать сигнал тревоги или автоматически нажать на тормоза. Она может не только обнаружить, что автомобиль украден, но и определить вора, так сказать, «со спины».

Профессор Косимицу обратился к материалу, который никогда не рассматривался как данные (вряд ли кому вообще пришло бы в голову, что он обладает информационными качествами), и преобразовал его в цифровой, количественный формат. Таким же образом коммодор Мори взял материал, который казался практически бесполезным, и получил из него информацию, превратив его в поистине полезные данные. Это позволило использовать информацию по-новому и придало ей уникальную ценность.

Слово data (англ. данные) в переводе с латинского означает «данность», то есть «факт». Это понятие стало краеугольным камнем классического труда Евклида, в котором геометрия объясняется с точки зрения известных данных и таких, которые можно показать, чтобы сделать известными. Сегодня данные относят к некоторому процессу, который позволяет их записывать, анализировать и переупорядочивать. Пока не придуман подходящий термин для обозначения такого рода преобразований, которые выполняли коммодор Мори и профессор Косимицу. Назовем их датификацией, под которой подразумевается процесс представления явлений в количественном формате для дальнейшего сведения в таблицу и анализа.

Датификация — далеко не то же самое, что оцифровка, при которой аналоговая информация преобразуется в двоичный код (или последовательность единиц и нулей), считываемый компьютером. Оцифровка не являлась первичной функцией компьютеров. Эпоха компьютерной революции изначально была связана с вычислениями, как и предполагает этимология слова compute (англ. «вычислять»). Мы выполняли вычисления, которые занимали много времени (такие, как вычисления в таблицах траекторий ракет, расчеты для переписей и сведений о погоде). И лишь затем появилась оцифровка аналогового контента. Поэтому, когда Николас Негропонте из MIT Media Lab опубликовал свою эпохальную книгу Being Digital в 1995 году, одной из поднятых им тем был переход от атомов к битам. К началу 1990-х годов этот переход в значительной степени коснулся текстовых данных. По мере увеличения емкости хранилищ, процессоров и пропускной способности за последнее десятилетие это удалось сделать и с другими формами контента (изображениями, видео, музыкой и пр.).

Сегодня среди технологов негласно принято считать, что большие данные ведут свое начало с момента «кремниевой» революции. Но это не так. Безусловно, большие данные стали возможны благодаря современным ИТ-системам, но основная идея лишь продолжила древнейшие поиски человечества в области измерения, записи и анализа мира.[73] ИТ-революция, произошедшая в мире, очевидна. Основной акцент в ней приходился на «Т» — технологии. Пришло время переключиться на «И» — информацию.

Для того чтобы записывать информацию в количественной форме (датифицировать ее), нам нужно знать, как проводить измерения и записывать полученный результат. А для этого необходим правильный набор инструментов, а также желание количественно измерять и записывать. И то и другое — предпосылки датификации, и человечество разработало ее «строительные элементы» задолго до начала цифровой эпохи.

Мир, выраженный в количественных категориях

Возможность записи информации — одно из главных различий между примитивными и передовыми обществами. Основы счета, а также измерение длины и веса были древнейшими инструментами ранних цивилизаций. К началу III тысячелетия до н. э. идея записи информации значительно продвинулась вперед. Это произошло в долине Инда, Египте и Месопотамии. Повысилась точность измерений, да и сами они прочно вошли в повседневную жизнь. Эволюция письменности в Месопотамии обеспечила точный метод отслеживания производства и деловых операций. Это позволило ранним цивилизациям измерять окружающие объекты и явления, делать записи о них и извлекать их позднее. Измерение и запись способствовали созданию данных. Они же являются древнейшими основами датификации.

Так стало возможным воспроизводить продукты человеческой деятельности, например здания, записывая их размеры и строительные материалы. При этом можно было экспериментировать, изменяя отдельные размеры, чтобы создать нечто новое, что затем тоже подлежало бы записи. Можно было записывать коммерческие сделки, чтобы знать, сколько урожая удалось собрать с поля (и сколько из него уйдет государству в виде налога). Появилась возможность прогнозирования и планирования, даже если они заключались в простом предположении, что следующий год будет таким же урожайным, как и текущий. Благодаря этому деловые партнеры могли отслеживать, сколько они должны друг другу. Без измерения и записей не появились бы деньги, поскольку не было бы данных для их обоснования.

Мир, выраженный в количественных категориях

Возможность записи информации — одно из главных различий между примитивными и передовыми обществами. Основы счета, а также измерение длины и веса были древнейшими инструментами ранних цивилизаций. К началу III тысячелетия до н. э. идея записи информации значительно продвинулась вперед. Это произошло в долине Инда, Египте и Месопотамии. Повысилась точность измерений, да и сами они прочно вошли в повседневную жизнь. Эволюция письменности в Месопотамии обеспечила точный метод отслеживания производства и деловых операций. Это позволило ранним цивилизациям измерять окружающие объекты и явления, делать записи о них и извлекать их позднее. Измерение и запись способствовали созданию данных. Они же являются древнейшими основами датификации.

Так стало возможным воспроизводить продукты человеческой деятельности, например здания, записывая их размеры и строительные материалы. При этом можно было экспериментировать, изменяя отдельные размеры, чтобы создать нечто новое, что затем тоже подлежало бы записи. Можно было записывать коммерческие сделки, чтобы знать, сколько урожая удалось собрать с поля (и сколько из него уйдет государству в виде налога). Появилась возможность прогнозирования и планирования, даже если они заключались в простом предположении, что следующий год будет таким же урожайным, как и текущий. Благодаря этому деловые партнеры могли отслеживать, сколько они должны друг другу. Без измерения и записей не появились бы деньги, поскольку не было бы данных для их обоснования.

Спустя столетия область применения измерений расширилась от длины и веса до площади, объема и времени. К началу I тысячелетия основные функции измерений узнал Запад. Существенным недостатком способа измерения в ранних цивилизациях являлось то, что он не был оптимизирован для вычислений, даже относительно простых. Система счета римских цифр малопригодна для численного анализа. Без позиционной системы нумерации из десяти основных цифр и десятичных чисел даже лучшим специалистам трудно давались умножение и деление больших чисел, а большинству остальных не хватало прозрачности даже в простом сложении и вычитании.[74]

В Индии альтернативная система счисления появилась примерно в I веке. Она перекочевала в Персию, где была усовершенствована, а затем принята арабами, которые тоже значительно ее улучшили. Эта система стала основой арабских цифр, которыми мы пользуемся до сих пор. Крестовые походы, может, и несли абсолютное разрушение землям, на которые вторгались европейцы, но при этом знания мигрировали с востока на запад, и, пожалуй, самым значительным иноземным нововведением стали арабские цифры. Папа Сильвестр II, который занимался их изучением, выступил за их использование в конце первого тысячелетия. К началу ХІІ века арабские тексты, описывающие данную систему, были переведены на латынь и распространились по всей Европе, дав начало математике.

Еще до того, как в Европе появились арабские цифры, вычислительный процесс улучшило использование счетных досок. На этих досках делались гладкие желобки, в которых размещались счетные метки для обозначения сумм. Складывали и вычитали, перемещая метки в определенных областях. Такой способ имел значительные ограничения: было трудно одновременно рассчитывать очень большие и очень маленькие количества. А самое главное — недолговечность цифр на этих досках. Неверный шаг, небрежный удар — и цифра могла измениться, что приводило к неправильным результатам. Счетные доски годились для расчетов, но не для записи. Поэтому всякий раз, когда числа с доски необходимо было записать, их переводили обратно в неудобные римские цифры.[75] (Европейцы так и не переняли восточный способ подсчета с помощью абака,[76] но это оказалось к лучшему, так как не дало увековечить на Западе использование римских цифр.[77])

Математика придала данным новый смысл: теперь их можно было анализировать, а не только записывать и при необходимости извлекать. Прошли сотни лет с момента введения арабских цифр (ХІІ век) до их широкого распространения (конец ХVІ века). К началу ХVІ века математики уже гордились тем, что с помощью арабских цифр проводили расчеты в шесть раз быстрее, чем с помощью счетных досок. Окончательный успех арабским цифрам принесла эволюция еще одного инструмента датификации — двойной бухгалтерии.

Счетоводы изобрели письменность в III тысячелетии до н. э. Несмотря на развитие счетоводства в последующих столетиях, оно, по сути, оставалось централизованной системой учета конкретных сделок. Но так и не удалось реализовать механизм, благодаря которому счетоводы и их торговцы-работодатели могли бы в любой момент времени увидеть то, что интересовало их больше всего: является конкретный счет или целая компания прибыльной или нет. Ситуация изменилась в XIV веке, когда счетоводы Италии начали записывать операции одновременно в двух книгах. Изящество этой системы заключалось в том, что прибыль и убытки можно было легко свести в таблицы по каждому счету, просто добавив кредиты и дебеты. И «скучные» данные вдруг «заговорили», пусть даже сбивчиво и только в пределах выявления прибыли и убытков.

Сегодня двойная бухгалтерия, как правило, рассматривается только с точки зрения ее последствий для бухгалтерского учета и финансов. Однако она стала вехой в эволюции использования данных, так как позволила записывать информацию в виде «категорий», связывающих счета между собой. Она работала по принятым правилам записи данных, став одним из самых ранних примеров стандартизированной системы записи информации. Бухгалтеры могли с легкостью разобраться в записях друг друга. Бухгалтерия была организована таким образом, чтобы сделать определенный тип запроса данных (расчет прибыли или убытков по каждому счету) быстрым и простым. Наконец, она предусматривала аудиторский след операций для более удобного прослеживания данных. Двойная бухгалтерия разрабатывалась с учетом встроенной «системы исправления ошибок», которая и сегодня не оставила бы равнодушными любителей технологий. Если запись в одной части бухгалтерской книги вызывала сомнения, можно было проверить соответствующую ей запись в другой.

Как и арабские цифры, двойная бухгалтерия не сразу стала успешной. Лишь спустя двести лет с момента изобретения этого метода вмешательство математика и купеческой семьи, наконец, изменило историю датификации.

Математик — это францисканский монах Лука Пачоли. В 1494 году он опубликовал учебник по коммерческой математике, рассчитанный на непрофессионалов в этой области. Благодаря своей популярности книга, по сути, являлась в то время учебником по математике. Кроме того, она стала первой книгой, полностью построенной на арабских цифрах, тем самым способствуя их укоренению в Европе. Наиболее долгосрочным вкладом была часть книги, посвященная бухгалтерии, где Пачоли четко объяснял систему двойного бухгалтерского учета. В течение последующих десятилетий часть, посвященную бухгалтерскому учету, отдельно издали на шести языках, и веками она оставалась настольной книгой по этому предмету.

Что касается купеческой семьи, это были знаменитые венецианские торговцы и меценаты — Медичи. В XVI веке они стали самыми влиятельными банкирами в Европе, в значительной степени благодаря тому, что использовали улучшенный способ записи данных — систему двойной записи. Учебник Пачоли и успех Медичи в его применении утвердили победу двойной бухгалтерии в качестве стандартной записи данных и с того момента закрепили использование арабских цифр.

Параллельно с достижениями в области записи данных развивалась идея измерения окружающего мира, которая подразумевала обозначения времени, расстояния, площади, объема и веса. Стремление познать природу через количественные категории определило развитие науки в XIX веке: ученые изобрели новые инструменты и агрегаты для измерения и регистрации электрических токов, атмосферного давления, температуры, частоты звука и т. п. Это была эпоха всеобщего определения, разграничения и обозначения. Увлечение этими процессами дошло до измерения черепа человека и его умственных способностей для выявления закономерностей между ними. К счастью, эта лженаука («френология») уже практически исчезла. Но желание все количественно измерить только усилилось.

Измерение объектов и явлений реального мира, а также запись получаемых данных процветали благодаря сочетанию подходящих инструментов и восприимчивого мышления. На этой благодатной почве и выросла датификация в ее современном понимании. Все составляющие датификации были готовы к использованию, однако в аналоговом мире этот процесс все еще оставался трудоемким и дорогостоящим. В большинстве случаев требовалось обладать бесконечным терпением или же посвятить этому делу всю жизнь. Примером тому служат тщательные ночные наблюдения за небесными телами, которые проводил астроном Тихо Браге[78] в 1500-х годах. В аналоговую эпоху случаи удачной датификации были редкостью. Как правило, им способствовало счастливое стечение обстоятельств (как в истории коммодора Мори, который был вынужден заниматься офисной работой, но имел в своем распоряжении целый склад журналов). Всякий раз результатом датификации исходной информации оказывались огромная ценность и потрясающие открытия.

Назад Дальше