Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - Виктор Майер-Шенбергер 13 стр.


«Прогнозирование дало нам знание, — говорит Дж. Ливис из UPS и с уверенностью добавляет: — Но кроме знания есть еще кое-что — мудрость и прозорливость. В какой-то момент система станет настолько умной, что будет предсказывать проблемы и исправлять их раньше, чем пользователь успеет сообразить, что что-то не так».

Со временем широкое применение получила датификация местоположения людей. В течение многих лет операторы беспроводной связи собирали и анализировали информацию, чтобы улучшить уровень обслуживания своих сетей. Однако эти данные все чаще используются в других целях и собираются третьими лицами для новых услуг. Например, некоторые приложения для смартфонов накапливают информацию о местоположении независимо от того, имеет ли она отношение к функциям самого приложения. Цель других приложений — построить бизнес вокруг знания о местоположении пользователя. Яркий тому пример — веб-служба Foursquare, которая дает людям возможность «отметиться» в местах, которые они любят посещать. Компания получает доход от программ лояльности, а также рекомендуя рестораны и другие объекты, так или иначе связанные с местоположением.

Возможность собирать геолокационные данные о пользователях становится чрезвычайно ценной. На уровне отдельных лиц она позволяет нацеливать рекламу, исходя из местоположения человека или его предполагаемого пункта назначения. Эту информацию можно объединять для выявления определенных тенденций. Данные о местоположении массовых скоплений дают компаниям возможность обнаруживать пробки, не видя самих автомобилей, на основании количества и скорости перемещения телефонов вдоль шоссе. Компания AirSage ежедневно обрабатывает три миллиарда записей геолокационных данных о перемещении миллионов абонентов сотовой связи для создания отчетов о ситуации на дорогах более чем в 100 городах по всей Америке в режиме реального времени. Две другие компании, которые занимаются геолокацией, Sense Networks и Skyhook, имея данные о местоположении, сообщают, в каких районах города активнее кипит ночная жизнь или сколько протестующих собралось на демонстрации.

Возможно, наиболее важным окажется некоммерческое использование геолокационных данных. Сэнди Пентлэнд, руководитель динамической лаборатории имени Хьюмана при МТИ, и бывший студент Натан Игл вместе открыли, по их словам, «интеллектуальный анализ действительности». Под этим подразумевается обработка больших объемов данных, получаемых с мобильных телефонов, для прогнозирования поведения людей. Они проанализировали передвижение людей и примеры звонков, чтобы определить, что человек заболел гриппом, прежде чем он сам это поймет. При вспышке смертельного гриппа можно спасти миллионы жизней, автоматически определяя, кого следует изолировать и где его найти. Но, как мы рассмотрим позже, попав в безответственные руки, интеллектуальный анализ действительности может привести к ужасающим последствиям.[80]

Натан Игл, основатель стартапа Jana, базирующегося на данных о беспроводной связи, исследовал вопросы распространения заболеваний и процветания городов. Он обработал объединенные данные с мобильных телефонов около 500 миллионов человек в Латинской Америке, Африке и Европе, полученные более чем от 200 операторов беспроводной связи в 80 странах. В одном из исследований Игл и его коллега объединили данные о местоположении абонентов предоплаченной связи в Африке с суммами, которые те тратили на пополнение счета, и выяснили, что эти суммы сильно коррелируют с доходом: хорошо обеспеченные люди покупают больше минут за один раз. Одним из парадоксальных открытий Игла стало то, что трущобы не только являются центром нищеты, но и выступают в качестве экономических трамплинов.[81] Все эти примеры показывают косвенное использование данных о местоположении, которое не имеет ничего общего с их первоначальным назначением — маршрутизацией мобильной связи. Напротив, как только информация о местоположении датифицируется, появляются новые области ее применения, позволяя извлечь из нее новую ценность.

Когда взаимодействия становятся данными

Некоторые границы датификации имеют личный характер: это наши отношения, переживания и настроения. Идея датификации лежит в основе многих социальных сетевых веб-служб. Социальные сети не только предоставляют нам платформу для поиска друзей и коллег, а также поддержания связи с ними, но и преобразуют нематериальные элементы нашей повседневной жизни в данные, которые можно использовать новыми способами. Так, Facebook датифицирует отношения. Они всегда представляли собой информацию, но официально не считались данными, пока не появился «социальный граф» Facebook. Twitter датифицирует настроения, предлагая людям способ легко записывать свои бессвязные мимолетные мысли и делиться ими с другими. LinkedIn датифицирует длительный профессиональный опыт (так же как Мори преобразовывал старые журналы), превращая эту информацию в прогнозы о нашем настоящем и будущем: с кем мы, возможно, знакомы и какую работу хотели бы получить.

Использование данных по-прежнему находится в зачаточном состоянии. Со стороны Facebook было весьма проницательно проявить терпение и не афишировать новые способы применения данных пользователей, зная, что эта информация могла быть шокирующей. Кроме того, компания все еще приспосабливает свою бизнес-модель (и политику конфиденциальности) к необходимому количеству и типу сбора данных. Поэтому большинство критических замечаний в адрес Facebook направлены на то, какие данные она способна получить, и гораздо меньше — на то, что с ними происходит на самом деле. Facebook охватывает более 850 миллионов активных пользователей в месяц, между которыми установлено более ста миллиардов дружественных связей. Получается, что социальный граф представляет около 10% населения мира, сведения о которых датифицированы и находятся в руках одной компании.

Потенциальные сферы применения таких данных необычны. Некоторые начинающие компании в области потребительского кредитования рассматривают вопрос о разработке кредитной оценки на основе социального графа Facebook. Система оценки потенциальных заемщиков FICO использует 15 переменных, чтобы спрогнозировать, выплатит ли заемщик кредит. На основании внутреннего исследования один солидно финансируемый (но, к сожалению, анонимный) стартап выдвинул следующее предположение. О том, выплатит ли человек задолженность, красноречивее всего говорит поведение его друзей в аналогичной ситуации. Таким образом, обширные данные Facebook могут составить основу огромных новых бизнес-областей, которые выходят далеко за рамки поверхностного обмена фотографиями, обновления статуса и пометок «Нравится».

В Twitter данные используются не менее интересно. Более 100 миллионов человек ежедневно отправляют 250 миллионов кратких твитов, которые чаще всего представляют собой не что иное, как случайные обрывки фраз.[82] Компания дает возможность датифицировать мысли, настроения людей и взаимодействия между ними — то, что невозможно было получить ранее. Twitter заключила с компаниями DataSift и Grip соглашение на продажу доступа к данным (несмотря на то что все твиты являются общедоступными, «закулисный» доступ к ним платный). Многие компании проводят анализ твитов (иногда с помощью так называемого метода «анализа настроений»), чтобы собрать совокупные отзывы клиентов или оценить эффективность маркетинговых кампаний.

Два хедж-фонда — Derwent Capital в Лондоне и MarketPsych в Калифорнии — начали анализировать датифицированный текст твитов в качестве сигналов для инвестиций на фондовом рынке (при этом сохранив свои торговые стратегии в секрете; к примеру, они могли отдать предпочтение компаниям, специализирующимся на коротких продажах, а не на импульсной торговле). Обе компании теперь продают информацию трейдерам. В частности, хедж-фонд MarketPsych совместно с медиакомпанией Thomson Reuters предлагает не менее 18 864 отдельных индексов по 119 странам. Эти индексы основаны на эмоциональных состояниях (оптимизм, подавленность, радость, страх, гнев и пр.) и даже таких факторах, как инновации, судебные разбирательства и конфликты, и обновляются ежеминутно. Данные используются не столько людьми, сколько компьютерами: математические гении Уолл-стрит (так называемые «кванты»[83]) с их помощью выявляют скрытые корреляции, которые можно превратить в прибыль.[84] А по словам одного из отцов анализа социальных сетей Бернардо Губермана, по частоте твитов на определенную тему можно спрогнозировать кассовые сборы кинокомпаний Голливуда. Вместе с коллегой из компании HP Губерман разработал модель для отслеживания скорости публикации новых твитов. Благодаря ей можно спрогнозировать успех фильма точнее, чем это делали рыночные прогнозисты.[85]

Этим широта возможностей не ограничивается. Сообщения Twitter содержат всего 140 символов, однако метаданные, связанные с ними, несут много полезной информации. Метаданные («информация об информации») состоят из 33 отдельных элементов. Некоторые кажутся не слишком полезными (например, фоновый рисунок на странице пользователя Twitter или программное обеспечение, которое он использует для доступа к веб-службе), другие чрезвычайно интересны (например, используемый язык интерфейса службы, географическое положение пользователя, количество и имена людей, чьи твиты он читает и которые читают его твиты). Исследование, проведенное журналом Science в 2011 году, показало то, что невозможно было выявить прежде: перемены настроения людей имеют ежедневные и еженедельные закономерности, общие для всех культур во всем мире. Предметом анализа стали 509 миллионов твитов, полученных за два года от 2,4 миллиона пользователей из 84 стран. Настроения удалось датифицировать.[86]

Датификация подразумевает перевод в анализируемую форму не только отношений и настроений, но и поведения людей, которое трудно было бы отследить иным способом, особенно в более широких группах населения и их подгруппах. Биолог Марсель Салатэ из Университета штата Пенсильвания и инженер-программист Шашанк Ханделвал проанализировали твиты с целью убедиться, что вероятность того, что человек сделает прививку от гриппа, напрямую зависит от его отношения к прививкам как таковым. Важно отметить, что у них были метаданные о связях между пользователями Twitter, читающими твиты друг друга. Это позволило пойти дальше и выявить существование подгрупп непривитых людей. Такое волнующее открытие ставит под сомнение понятие «коллективного иммунитета», согласно которому проведение вакцинации среди большей части населения предотвращает вспышки заболеваний даже среди непривитых людей. Примечательно, что в отличие от других исследований, таких как Google Flu Trends, где объединенные данные использовались для рассмотрения вопроса о состоянии здоровья, анализ настроений, проведенный Салатэ, позволил обнаружить само поведение в отношении здоровья.[87]

Первые находки уже показывают направление, в котором уверенно движется датификация. Подобно Google, социальные сети, такие как Facebook, Twitter, LinkedIn, Foursquare, Zynga и другие, сидят на сокровищнице датифицированной информации, проанализировав которую можно было бы пролить свет на динамику человеческого и социального поведения на всех уровнях — от личности до общества в целом.

Повсеместная датификация

Проявив немного фантазии, можно перевести в форму данных немыслимое число объектов и сделать при этом неожиданные открытия. В духе экстравагантных работ токийского профессора Косимицу компания IBM в 2012 году получила патент США на «систему безопасности помещений с использованием наземной вычислительной технологии». Говоря простым языком, это сенсорное напольное покрытие, подобное гигантскому экрану смартфона. Сфера его потенциального применения весьма обширна. Такой пол мог бы обнаруживать расположенные на нем предметы и определять, когда нужно включить свет в комнате или открыть двери. Более того, он опознавал бы людей по их весу, стоячей позе и походке. Сообщал, когда кто-то упал и не может подняться. С помощью этой технологии торговые компании могли бы отслеживать поток клиентов в магазине. Таким образом, датификация напольного покрытия открывает безграничные возможности ее применения.

И это будущее не за горами. Возьмем, к примеру, движение Quantified Self («Измерение себя»). Его участники — разношерстная группа фанатов фитнеса, медицины и техники, которые измеряют каждый элемент своего тела и деятельности, чтобы улучшить качество своей жизни или по крайней мере узнать что-то новое, что раньше не удавалось измерить количественно. Пока что движение по отслеживанию личных показателей немногочисленное, но его ряды постоянно пополняются.

Благодаря смартфонам и недорогой вычислительной технике датификация наиболее важных аспектов жизни стала проще, чем когда-либо. Множество стартапов предоставляют людям возможность отслеживать свой сон путем измерения мозговых волн в течение всей ночи. Компания Zeo уже создала крупнейшую в мире базу данных активности во время сна и обнаружила различия в количестве фаз быстрого сна у мужчин и женщин. Компания Asthmapolis провела другой эксперимент: прикрепила к ингаляторам от астмы датчики, которые отслеживают местоположение с помощью GPS. Собранная информация позволяет выяснить, какие факторы окружающей среды провоцируют приступы астмы (например, близость к определенным видам посевных культур).

Компании Fitbit и Jawbone предлагают людям инструмент для оценки своей физической активности и сна. Владельцы браслетов компании Basis могут контролировать жизненно важные функции, в том числе частоту сердечных сокращений и электропроводность кожи, которые являются показателями стресса.[88] Получение данных становится проще и непринужденнее, чем когда-либо. Так, в 2009 году Apple подала заявку на патент для сбора данных о насыщенности крови кислородом, частоте сердечных сокращений и температуре тела через наушники-вкладыши.[89]

Датификация принципов работы человеческого тела открывает широкое поле для изучения. Исследователи из Университетского колледжа Йёвик в Норвегии и компания Derawi Biometrics разработали приложение для смартфонов, которое анализирует походку человека, чтобы использовать ее в качестве системы безопасности для разблокировки телефона.[90] Роберт Делано и Брайан Пэрисит из Технологического научно-исследовательского института штата Джорджия создали приложение iTrem, которое с помощью встроенного в телефон акселерометра контролирует тремор частей тела при болезни Паркинсона и других неврологических расстройствах. Это приложение удобно как для врачей, так и для пациентов. Пациенты получают возможность обойтись без дорогостоящих визитов к врачу, а медработники — удаленно отслеживать нарушения функций у людей и их реакцию на лечение.[91] По мнению исследователей в Киото, смартфон измеряет степень дрожания не настолько точно, как акселерометр, используемый в специализированном медицинском оборудовании. Однако разница в эффективности несущественна и делает показания приложения достаточно надежными.[92] Выходит, что немного беспорядочности не помеха точности.

В большинстве таких случаев мы получаем информацию и переводим ее в форму данных для повторного использования. Для этого годится практически любая информация, полученная где угодно. Стартап GreenGoose продает крошечные датчики движения, которые можно разместить на объектах, чтобы отслеживать частоту их применения. Прикрепив такой датчик на пачку зубной нити, лейку или коробку кошачьего туалета, вы сможете датифицировать гигиену полости рта и уход за растениями или домашними животными.

С тех пор как мир начал датифицироваться, использование информации стало настолько широким, насколько хватит фантазии. Мори раскрыл скрытую ценность данных путем кропотливого ручного анализа. Сегодня у нас есть инструменты (статистические данные и алгоритмы) и необходимое оборудование (компьютерные процессоры и хранилища), которые позволяют делать то же самое гораздо быстрее, в большем масштабе и во множестве различных областей. В эпоху больших данных можно извлекать пользу из самых неожиданных объектов.

Мы находимся в середине большого инфраструктурного проекта, который в некотором роде конкурирует с атрибутами прошлого — от римских акведуков до «энциклопедистов» эпохи Просвещения. Мы не в состоянии оценить проект по достоинству, поскольку он едва появился и мы полностью поглощены им. К тому же, в отличие от воды, текущей по акведукам, продукт нашего труда нематериален. Этот проект — датификация. Подобно остальным инфраструктурам, она приведет к фундаментальным изменениям в обществе.

Акведуки способствовали росту городов, печатные станки — просвещению, а газеты — подъему национального государства. Эти инфраструктуры имели дело с потоками (воды и знаний), так же как телефон и интернет. В отличие от них датификация — фундаментальное изменение действительности в человеческом понимании. Благодаря большим данным мы перестанем рассматривать окружающий мир как бесконечное множество событий, которые объясняются как природные или социальные явления, а взглянем на него как на область, состоящую в основном из информации.

Более века назад физики предположили, что не атомы, а информация является настоящей основой всего сущего. И пусть это звучит эзотерически, но во многом именно благодаря датификации мы теперь можем полномасштабно фиксировать и рассчитывать материальные и нематериальные аспекты существования и действовать в соответствии с ними.

Назад Дальше