Появление компьютеров повлекло за собой внедрение цифровых устройств для измерения и хранения данных, которые значительно повысили эффективность датификации, а также сделали возможным математический анализ данных для раскрытия их скрытой ценности. Проще говоря, оцифровка стала катализатором датификации, но никак не ее заменой. Процесс оцифровки (преобразование аналоговой информации в формат, считываемый компьютером) сам по себе не является датификацией.
Когда слова становятся данными
Разница между оцифровкой и датификацией данных станет очевидной, если посмотреть на домен, где происходит и то и другое, и сравнить последствия. Рассмотрим такой пример. В 2004 году компания Google объявила невероятно смелый план — полностью оцифровать все книги, которые находятся в ее распоряжении (насколько это возможно с учетом законов об авторском праве), и дать возможность людям по всему миру искать и бесплатно просматривать книги через интернет. Чтобы совершить этот подвиг, компания объединилась с несколькими крупнейшими и наиболее престижными научными библиотеками мира и разработала машины для сканирования, которые могли бы автоматически перелистывать страницы, делая сканирование миллионов книг не только реализуемым, но и финансово жизнеспособным.
Первый текст, оцифрованный компанией Google, выглядел так. Каждую страницу отсканировали и записали в виде файла цифрового изображения в высоком разрешении, сохраненного на серверах Google. Страницы были преобразованы в цифровые копии, которые любой мог легко получить через интернет из любой точки мира. Однако при этом требовалось точно знать, какая книга содержит нужную информацию, иначе приходилось много читать, чтобы найти правильный отрывок. Текст невозможно было найти по словам или анализировать, поскольку его не датифицировали. Все, чем располагала Google, — это изображения, которые только люди могли превратить в полезную информацию.
И хотя это все равно было отличным инструментом — современной цифровой Александрийской библиотекой, более полезной, чем любая другая библиотека за всю историю, — Google этого показалось мало. Компания понимала, что эта информация хранила в себе ценнейший ресурс, который можно получить только в результате датификации. Поэтому специалисты Google пустили в ход программу оптического распознавания символов, которая могла распознать буквы, слова, предложения и абзацы в цифровом изображении. В итоге получался датифицированный текст, а не оцифрованная картинка страницы.
Теперь информация со страниц была доступна не только для чтения, но и для обработки на компьютерах и для анализа с помощью алгоритмов. Благодаря этому текст становился индексируемым, а значит, доступным для поиска. Стал возможным бесконечный поток текстового анализа. Так, например, можно узнать дату первого упоминания определенных слов и фраз или выяснить, когда они стали популярными. Это позволяет нам по-новому взглянуть на распространение идей и развитие человеческого мышления на протяжении столетий и на многих языках.
Попробуйте сами. Служба Google NgramViewer (http://books.google.com/ngrams) создает график использования слов или фраз с течением времени, применяя в качестве источника данных весь перечень книг Google. Всего за несколько секунд мы можем обнаружить, что до 1900 года термин «причинность» (англ. causality) использовался чаще, чем «корреляция» (англ. correlation), но затем соотношение изменилось. Мы можем сравнить стили письма и понять, кто прав в спорах об авторстве. Кроме того, благодаря датификации стало гораздо легче обнаруживать плагиат в научных трудах, вследствие чего некоторые европейские политики, в том числе министр обороны Германии, были вынуждены уйти в отставку.
По оценкам, с момента изобретения печатного станка (середина XV века) опубликовано 129 миллионов различных книг. К 2010 году, пять лет спустя после запуска своего книжного проекта, компании Google удалось отсканировать более 15 миллионов наименований — существенную часть письменного наследия мира (более 12%). Это дало начало новой учебной дисциплине — «культуромике». Она представляет собой вычислительную лексикологию, которая пытается понять поведение человека и культурные тенденции путем количественного анализа текстов.
В ходе одного из исследований гарвардские ученые, обработав миллионы книг и более 500 миллиардов слов, выявили, что менее половины английских слов, которые встречаются в книгах, включены в словари. Они писали, что английский лексикон «состоит из лексической “темной материи”, которая не зафиксирована в стандартных справочных источниках». Проведя алгоритмический анализ упоминаний о еврейском художнике времен нацистской Германии Марке Шагале, они могли бы показать, что подавление или цензура идеи, как и человека, оставляет «отпечатки, которые можно измерить количественно». Слова на страницах — словно окаменелости в осадочных горных породах, до которых приверженцы культуромики могут докопаться, словно археологи. Конечно, это влечет за собой огромное количество неявных предубеждений: отражают ли библиотечные книги истинное положение вещей в мире или показывают только то, что дорого авторам и библиотекарям? И все же культуромика дает интересные результаты.
Преобразование слов в данные открывает множество способов их применения. Конечно, их можно читать традиционным способом или анализировать с помощью компьютера. Но для Google как для образцовой компании, которая занимается обработкой больших данных, не было секретом, что информация имеет несколько потенциальных назначений, вполне оправдывающих ее сбор и датификацию. Так, например, с помощью датифицированного текста Google удалось улучшить свою службу машинного перевода. Как говорилось в третьей главе, система определяла отсканированные переводные книги и анализировала, какие слова и фразы на одном языке соответствуют словам и фразам на другом. Зная это, система обрабатывала перевод как огромную математическую задачу, в которой компьютер выясняет вероятности, чтобы определить наилучшие соответствия слов в разных языках.
Переход от цифровых изображений страниц к датифицированному тексту чреват ошибками. Даже очень сложные программы распознавания символов сталкиваются с трудностями из-за чрезвычайного разнообразия шрифтов, опечаток в тексте и выцветших чернил. Для слов, которые до сих не поддаются расшифровке с помощью специальных программ, компания Google поставила себе на службу хитрый способ получать непреднамеренную помощь от интернет-пользователей (об этом подробнее рассказано в следующей главе).
Конечно, Google не единственная компания, которая мечтала перенести богатое письменное наследие мира в эпоху компьютеров. Она далеко не первая решила попробовать это осуществить. Проект «Гутенберг» (общественная инициатива по размещению различных произведений в интернете для общего пользования) был призван сделать тексты доступными людям исключительно для чтения. При этом не предусматривались дополнительные способы использования слов (в качестве данных), то есть не шла речь о повторном использовании. Подобным образом издатели в течение многих лет экспериментировали с электронными версиями книг. Но они тоже видели основную ценность книг в их содержании, а не в данных. На этом строилась их бизнес-модель. Издатели никогда не обращали внимания на данные, присущие тексту книги, и не позволяли этого другим. Они не видели в этом необходимости и попросту недооценивали потенциал данных.
Многие компании сейчас соперничают за успех на рынке электронных книг. Похоже, в этой области с большим отрывом лидирует компания Amazon с ассортиментом своих электронных книг Kindle. Однако стратегии компаний Amazon и Google в этой области значительно разнятся.
Компания Amazon получила в свое распоряжение датифицированные книги, однако не сумела найти новые способы применения текста в качестве данных. Джефф Безос, основатель и главный исполнительный директор компании, убедил сотни издателей выпустить книги в формате Kindle. Книги Kindle представляют собой не изображения страниц (в противном случае никто бы не смог изменить размер шрифта или отобразить страницы как на цветных, так и на черно-белых экранах) — их текст датифицирован, а не просто оцифрован. Компании Amazon удалось совершить с миллионами новых книг то, что Google усердно старается повторить с множеством старых.
Тем не менее книжный бизнес Amazon завязан на содержимом, которое читают, а не на анализе датифицированного текста. Справедливости ради стоит заметить, что компания наверняка сталкивается с ограничениями, которые консервативные издатели накладывают на использование информации, содержащейся в их книгах. В свою очередь компания Google, как хулиганка в области больших данных, стремящаяся выйти за рамки, конечно, не испытывает таких ограничений — хлеб насущный ей обеспечивают клики пользователей, а не доступ к собственности издателей. Однако, не считая замечательной службы «статистически значимых слов» Amazon, которая использует алгоритмы для выявления неочевидных связей между темами книг, этот интернет-магазин так и не распорядился своей сокровищницей слов для анализа больших данных. Пожалуй, будет справедливо отметить, что, по крайней мере сейчас, Amazon осознает ценность оцифровки контента, а Google — ценность его датификации.
Тем не менее книжный бизнес Amazon завязан на содержимом, которое читают, а не на анализе датифицированного текста. Справедливости ради стоит заметить, что компания наверняка сталкивается с ограничениями, которые консервативные издатели накладывают на использование информации, содержащейся в их книгах. В свою очередь компания Google, как хулиганка в области больших данных, стремящаяся выйти за рамки, конечно, не испытывает таких ограничений — хлеб насущный ей обеспечивают клики пользователей, а не доступ к собственности издателей. Однако, не считая замечательной службы «статистически значимых слов» Amazon, которая использует алгоритмы для выявления неочевидных связей между темами книг, этот интернет-магазин так и не распорядился своей сокровищницей слов для анализа больших данных. Пожалуй, будет справедливо отметить, что, по крайней мере сейчас, Amazon осознает ценность оцифровки контента, а Google — ценность его датификации.
Когда местоположение становится данными
Один из самых весомых источников информации в мире, по сути, сам мир. Большую часть истории человечества он не измерялся количественно и не использовался в форме данных. Безусловно, информацию представляет собой географическое положение объектов и людей: гора находится там, человек — тут. Но эту информацию необходимо преобразовать в данные. Для датификации местоположения требуется несколько составляющих: метод измерения площади земного шара вплоть до сантиметра, стандартизированный способ обозначения и инструмент для сбора и записи данных. Территория, координаты, инструменты. Определение количества, стандартизация, сбор. Только тогда мы сможем хранить и анализировать местоположение не как место само по себе, а как данные.
На Западе количественное измерение местоположения придумали греки. Около 200 года до н. э. Эратосфен изобрел систему координат (сродни широте и долготе) для демаркации местоположений. Со временем она утратила практическое применение, как и множество других хороших идей эпохи Античности. Полтора с половиной тысячелетия спустя (около 1400 года) копия птолемеевского труда «Руководство по географии» прибыла во Флоренцию из Константинополя ввиду того, что эпоха Возрождения и морская торговля возбудили живой интерес к науке и древним знаниям. Это стало сенсацией, и старые уроки Птолемея пригодились для решения современных задач в области навигации. С тех пор на картах появились долгота, широта и масштаб. Позже систему улучшил фламандский картограф Герард Меркатор (в 1570 году), что позволило морякам выстраивать прямые маршруты в круглом мире.
Хотя к этому времени уже сформировался способ записи информации о местоположении, не существовал общепринятый формат для обмена ею. Требовалась единая система идентификации, так же как в интернете требуются доменные имена для работы электронной почты и других служб. Стандартизация долготы и широты заняла много времени и была, наконец, закреплена в 1884 году на Международной меридианной конференции в Вашингтоне (Колумбия), где 25 стран выбрали Гринвич (Англия) в качестве нулевого меридиана и нулевой долготы, и только Франция, считая себя лидером в международных стандартах, воздержалась от голосования. В 1940 году создана система координат «Универсальная поперечная проекция Меркатора» (UTM), согласно которой земной шар разделили на 60 зон для повышения точности.
Геопространственное положение теперь определяли, записывали, подсчитывали, анализировали и распространяли в стандартизированном числовом формате. Появилась возможность датифицировать положение. Однако из-за высокой себестоимости измерение и запись информации в аналоговом виде применялись редко. Изменить ситуацию могли инструменты для менее затратного измерения местоположения. До 1970-х годов единственным способом определения физического местоположения было использование ориентиров, астрономических созвездий, счисления пути и ограниченной технологии определения координат источника радиоизлучения.
Все изменилось в 1978 году после запуска первого из 24 спутников в рамках глобальной системы определения местоположения (GPS). Приемники на Земле, будь то автомобильная навигационная система или смартфон, триангулируют свое положение, отмечая разницу во времени, которое требуется для приема сигнала от спутников, расположенных на высоте более 20 000 км. В 1980-х годах систему впервые открыли для использования в гражданских целях, а в 1990-х она заработала в полную силу. Десятилетием позже ее точность была повышена в коммерческих целях. Система GPS воплотила древнейшую мечту мореплавателей, картографов и математиков, предоставив технические средства для быстрого, относительно дешевого и не требующего специальных знаний измерения местоположения с точностью до одного метра.
Информацию нужно создавать. Ничто не мешало Эратосфену или Меркатору определять свое местоположение ежеминутно, будь у них такое желание, хотя на практике это вряд ли удалось бы осуществить. Первые приемники GPS ввиду сложности и дороговизны не были общедоступными и годились, скорее, для специальных нужд (например, для подводной лодки). Ситуацию изменили недорогие чипы, встроенные в цифровые устройства. Стоимость модуля GPS упала с сотни долларов в 1990-х годах до примерно доллара при нынешнем крупномасштабном производстве. Системе GPS нужно всего несколько секунд, чтобы определить местоположение и выдать координаты в стандартизированном формате. Так, запись 37°14'06"N 115°48'40"W означает, что вы находитесь на суперсекретной американской военной базе в отдаленной части штата Невада — «Зоне-51», где (возможно) находятся космические пришельцы.
В наше время GPS — одна из множества систем, предоставляющих данные о местоположении. В Китае и Европе реализуются конкурирующие спутниковые системы. А поскольку GPS не работает в помещении или среди высотных зданий, для определения положения на основе силы сигнала можно использовать триангуляцию между базовыми станциями сотовой связи или маршрутизаторами Wi-Fi-сети. За счет этого можно достичь еще большей точности данных о местоположении. Становится понятным, почему такие компании, как Google, Apple и Microsoft, создали собственные геолокационные системы, использующие преимущества GPS. Автомобилям Street View компании Google, делающим панорамные фотографии улиц, даже удалось собрать информацию о маршрутизаторах Wi-Fi-сети, а iPhone оказался «шпионским» смартфоном, который собирал данные о местоположении и Wi-Fi-сетях и отправлял их в компанию Apple без ведома пользователей (кроме того, аналогичные данные собирали телефоны Google Android, а также мобильная операционная система Microsoft).[79]
Теперь можно отслеживать не только людей, но и любые другие объекты. Благодаря беспроводным модулям, помещаемым в транспортные средства, датификация местоположения произвела революцию в области страхования. Данные позволяют подробно изучить время, маршрут и пройденное автомобилем расстояние, чтобы лучше оценить риски. В Великобритании водители могут приобрести страховку на автомобиль, исходя из времени и маршрута фактических поездок, а не только из годового показателя, вычисляемого на основе возраста, пола и последней записи. Такой подход к ценообразованию страховых услуг стимулирует примерное поведение. При этом изменяется сама природа страхования: происходит переход от учета объединенных рисков к рискам, основанным на действиях отдельных лиц. Отслеживание физических лиц по транспортным средствам также преобразует характер постоянных затрат, например на дороги и другие объекты инфраструктуры, связывая использование того или иного ресурса с водителями и другими субъектами. Все это было невозможно до того, как появился способ постоянного получения данных о географическом положении людей и объектов. Но это то, к чему мы идем.
Компания UPS использует «геолокационные» данные несколькими способами. Ее автомобили оснащены датчиками, модулями беспроводной связи и GPS, так что в случае задержек специалисты в главном офисе могут определить местоположение фургонов или спрогнозировать неисправности двигателя. Далее, это позволяет компании отслеживать работу сотрудников и изучать карту их маршрутов для дальнейшей оптимизации. Наиболее эффективный путь определяется, в частности, по данным предыдущих поставок, подобно тому как Мори составлял карты на основе более ранних морских плаваний.
По словам Джека Ливиса, начальника отдела управления процессами в компании UPS, программа аналитики дала колоссальные результаты. В 2011 году компании удалось сократить протяженность маршрутов на 30 миллионов миль, тем самым сэкономив три миллиона галлонов топлива и сократив выбросы углекислого газа на 30 тысяч тонн. Кроме того, повысилась безопасность и эффективность, поскольку алгоритм составляет маршруты с меньшим количеством поворотов влево. Такие повороты нередко приводят к ДТП из-за того, что автомобилю приходится пересекать движение на перекрестках, к тому же они отнимают время и потребляют больше топлива, так как перед поворотом двигатель фургона работает на холостом ходу. Телеметрическая система позволяет предвидеть поломку деталей двигателя — прямо как Кэролин Макгрегор в Университете провинции Онтарио заблаговременно определяет заболевания у недоношенных детей, о чем шла речь в четвертой главе.