Ценность выбросов данных
Повторное использование данных иногда производится в скрытой форме. Интернет-компании записывают данные обо всех действиях пользователей на своем сайте, а затем обрабатывают каждое отдельно взятое взаимодействие как «сигнал» обратной связи для персонализации сайта, улучшения обслуживания или создания нового цифрового продукта. Интересной иллюстрацией служит рассказ о двух средствах проверки правописания.
В течение двадцати лет корпорация Microsoft разрабатывала надежное средство проверки правописания для своей программы Word. Его работа заключалась в том, чтобы сравнивать часто обновляемый словарь правильно написанных терминов с потоком символов, вводимых пользователем. Известные слова сверялись со словарем, а похожие варианты, не зафиксированные в нем, система расценивала как опечатки и предлагала исправить. Из-за усилий, затрачиваемых на формирование и обновление каждого словаря, средство проверки правописания в Microsoft Word было рассчитано только на наиболее распространенные языки. Создание и поддержка системы обошлись компании в миллионы долларов.
Посмотрим, что сделала Google. Эта компания имеет, пожалуй, наиболее полное из современных средств проверки правописания практически для всех языков мира. Система постоянно совершенствуется и непрерывно добавляет новые слова — это результат ненамеренной деятельности людей, ежедневно использующих поисковую систему. Сделали опечатку в слове iPad? Не страшно, система и так поймет. Ввели Obamacare? Запрос принят! Это важнее, чем может показаться. Золотое правило поисковиков звучит так: 10% запросов вводятся с ошибкой. (Поскольку средство проверки правописания Google постоянно совершенствуется, люди не обращают особого внимания на правильный ввод поисковых запросов, ведь Google в любом случае прекрасно справится с их обработкой.)
Компания Google получила свое средство проверки правописания практически «даром». Оно основано на опечатках, которые вводятся в окне поиска среди трех миллиардов запросов, обрабатываемых ежедневно. Продуманная обратная связь указывает системе, что пользователь на самом деле имел в виду. Пользователи могут непосредственно «сообщить» поисковой системе Google ответ на вопрос, отображаемый в верхней части страницы результатов (например: «Вы имели в виду эпидемиология?»), выбрав новый поиск с правильным термином. Или же веб-страница, на которую переходит пользователь, неявно сигнализирует о правильном написании, так как она, вероятно, сильнее коррелирует с правильно написанным словом, чем неправильным.
Система проверки правописания Google демонстрирует, что «плохие», «неправильные» или «дефектные» данные могут быть очень полезными. Интересно, что компания Google не первая загорелась этой идеей проверки правописания. Примерно в 2000 году Yahoo увидела возможность создания средства проверки правописания по опечаткам в запросах пользователей. Но идея не была реализована. Данные старых поисковых запросов рассматривались по большей части как балласт. Популярные когда-то поисковые системы Infoseek и Alta Vista в свое время тоже располагали наиболее полной базой данных слов с ошибками, но недооценили ее значимость. Их системы в ходе процесса, невидимого пользователям, рассматривали опечатки как «связанные термины» и выполняли поиск. Но эти системы были основаны на словарях (которые явно указывали системе, что правильно), а не на живом, динамичном взаимодействии с пользователем.
Только Google удалось разглядеть в отрывочных данных о взаимодействии пользователей поистине золотой песок, который можно было собрать и превратить в драгоценный слиток. Как считает один из ведущих инженеров Google, их средство проверки правописания работает на порядок лучше, чем средство Microsoft (хотя при некотором давлении инженер признал, что не проводил надлежащего исследования). Он высмеял идею «бесплатной» разработки. «Сырье (опечатки), возможно, и дается даром, но у Google на разработку системы ушло наверняка намного больше средств, чем у Microsoft», — сказал он, широко улыбаясь.
Разные подходы двух компаний чрезвычайно показательны. Корпорация Microsoft видела ценность средства проверки правописания только в одном — обработке текстов. Google, напротив, ясно понимала его значение. Используя опечатки, она не только разработала передовое в мире средство проверки правописания, чтобы улучшить поиск, но и применила его ко многим другим службам, таким как «автозаполнение» в поисковой системе, Gmail, Google Диск и даже собственная система машинного перевода.
Для описания цифрового следа, который пользователи оставляют на сайте, был придуман специальный термин — «выбросы данных». Под ним подразумевается побочный продукт взаимодействия пользователей в интернете: где и что они нажимают, как долго смотрят на страницу, где проводят курсором мыши, что печатают и т. д. Многие компании разрабатывают собственные системы, для того чтобы собирать выбросы данных и перерабатывать их для улучшения существующей службы или разработки новой. В этом отношении, как ни странно, лидирует Google. Она применяет принцип рекурсивного «обучения на основе данных» во многих своих службах. Каждое действие пользователя считается «сигналом», который Google анализирует и передает обратно в систему.
Google четко знает, сколько раз пользователи искали тот или иной термин, а также другие связанные с ним термины или же переходили по ссылке, после чего (не найдя ничего ценного) возвращались на страницу поиска, чтобы начать заново. Компания знает, по каким ссылкам переходил пользователь (будь то восьмая ссылка на первой странице или первая ссылка на восьмой странице) и отказался ли он от поиска в целом. Возможно, Google и не была первой, у кого возникла такая идея, зато она реализовала ее с необычайной эффективностью.
Такая информация очень ценна. Если множество пользователей выбирают результат поиска в нижней части страницы результатов, система предположит, что он более актуален, и алгоритм ранжирования Google автоматически поместит его выше на страницах последующих поисков (то же самое относится к рекламным объявлениям). «Нам нравится учиться у больших, “шумных” наборов данных», — делится один из сотрудников Google.[104]
Выбросы данных — это механизм, лежащий в основе многих компьютеризированных служб, таких как распознавание голоса, спам-фильтры, переводчики и других. Когда пользователь указывает в программе распознавания голоса, что она неправильно поняла произнесенное слово, он, по сути, «тренирует» систему, совершенствуя ее.
Многие компании начинают подобным образом проектировать собственные системы сбора и использования информации. В начале деятельности компании Facebook ее специалисты по обработке данных изучили широкую базу выбросов данных и обнаружили, что пользователь чаще всего предпринимает то или иное действие (публикует материал, нажимает значок и пр.) по примеру своих друзей. Компания сразу модернизировала свою систему так, чтобы почти все действия пользователя становились известными его друзьям, и это вызвало новую волну активности на сайте.
Идея распространилась далеко за пределы интернет-сектора — в каждую компанию, у которой есть возможность собирать данные обратной связи с пользователем. Устройства для чтения электронных книг записывают большие объемы данных о литературных предпочтениях и привычках людей, которые ими пользуются: как быстро они читают страницу или раздел, пролистывают ли некоторые страницы, едва прочитав, или, может, вовсе не дочитывают книгу. Книги фиксируют, если читатели подчеркивают отрывки или делают заметки на полях. Возможность собирать такого рода информацию превращает чтение, которое долгое время считалось сугубо индивидуальным, в коллективную деятельность. Объединенные выбросы данных расскажут издателям и авторам то, что им ни за что не удалось бы узнать с помощью количественных измерений: предпочтения людей и свойственные им модели чтения. Это коммерчески ценная информация: компании — производители электронных книг могут продавать ее издателям для улучшения содержания и структуры книг. Компания Barnes & Noble проанализировала данные со своих устройств для чтения электронных книг Nook, в результате чего выяснила, что люди, как правило, забрасывали чтение длинных книг научного содержания на полпути. Это открытие вдохновило компанию на создание Nook Snaps — коротких тематических выпусков, посвященных актуальным вопросам, таким как здоровье и текущие события.[105]
Программы дистанционного обучения, такие как Udacity, Coursera и edX, отслеживают взаимодействия студентов в интернете, чтобы определить наиболее удачные педагогические подходы. «Вместимость» аудитории порой превышает десятки тысяч студентов, что обеспечивает чрезвычайно большой объем данных. Теперь профессора могут увидеть, что многие студенты повторно просмотрели тот или иной отрывок лекции, и предположить, что определенный момент в ней был непонятен. Профессор Стэнфордского университета Эндрю Нг, преподавая курс машинного обучения в рамках программы Coursera, отметил, что около 2000 студентов неправильно поняли вопрос в домашнем задании, но выдали совершенно одинаковые ответы. Очевидно, они все делали одну и ту же ошибку. Но какую?
Программы дистанционного обучения, такие как Udacity, Coursera и edX, отслеживают взаимодействия студентов в интернете, чтобы определить наиболее удачные педагогические подходы. «Вместимость» аудитории порой превышает десятки тысяч студентов, что обеспечивает чрезвычайно большой объем данных. Теперь профессора могут увидеть, что многие студенты повторно просмотрели тот или иной отрывок лекции, и предположить, что определенный момент в ней был непонятен. Профессор Стэнфордского университета Эндрю Нг, преподавая курс машинного обучения в рамках программы Coursera, отметил, что около 2000 студентов неправильно поняли вопрос в домашнем задании, но выдали совершенно одинаковые ответы. Очевидно, они все делали одну и ту же ошибку. Но какую?
Проведя небольшое исследование, Эндрю понял, что студенты изменили порядок алгебраических уравнений в алгоритме. Впредь, если другие студенты сделают ту же ошибку, система не просто сообщит им, что что-то не так, но и посоветует проверить вычисления. Система также работает с большими данными, анализируя каждое сообщение на форуме, прочитанное студентами, и правильность выполненного ими домашнего задания. Это позволяет спрогнозировать вероятность того, что студент, прочитавший то или иное сообщение, правильно решит задание, а значит, определить какие сообщения наиболее полезны. Все это невозможно было узнать прежде. И эти знания могут навсегда изменить подход к преподаванию.
Выбросы данных могут дать компаниям огромные конкурентные преимущества, а также стать мощным рыночным барьером для конкурентов. Возьмем новую компанию, которая разработала интернет-магазин, социальную сеть или поисковую систему, намного лучшую, чем современные лидеры в этих областях — Amazon, Google или Facebook. Новой компании будет трудно конкурировать не только из-за отсутствия эффекта масштаба, сетевой выгоды или бренда, а еще и потому, что эффективность лидирующих компаний во многом связана с выбросами данных, собранными при взаимодействии с клиентами и включенными обратно в службу. Сможет ли новый сайт дистанционного обучения предложить ноу-хау, способное посоревноваться в эффективности с теми, кто уже собрал гигантское количество данных, чтобы определить наиболее успешные подходы?
Ценность открытых данных
Считается, что сайты вроде Google и Amazon были первопроходцами в области больших данных, но это не так. Первоначальными сборщиками информации в массовом масштабе были государственные органы, и они по-прежнему дадут фору любой частной компании в том, что касается огромного объема управляемых данных. В отличие от держателей данных в частном секторе, государственные органы, как правило, обязывают людей предоставить информацию, а не убеждают или предлагают что-то взамен. Поэтому они и дальше будут собирать и накапливать огромные объемы данных.
Уроки больших данных применимы как к общественным, так и к коммерческим структурам; ценность данных правительственных структур по большому счету скрыта и может быть извлечена только путем инновационного анализа. Несмотря на преимущественное положение в этом отношении, государственные органы, как правило, не умеют эффективно ими распоряжаться. В последнее время стала популярной мысль о том, что лучший способ извлечь ценность из правительственных данных — предоставить эту задачу частному сектору и обществу в целом. И эта идея небезосновательна. Когда государство собирает данные, оно делает это от имени своих граждан и, следовательно, должно предоставить доступ к ним обществу, за исключением ограниченного числа случаев, связанных, например, с возможностью нанести вред национальной безопасности или правам на частную жизнь других людей.
Эта идея привела к несчетному количеству проектов «открытых государственных данных» по всему миру. Утверждая, что государственные органы являются лишь хранителями собираемой информации, а частный сектор и общество найдут ей инновационное применение, сторонники открытых данных призывают официальные органы открыто публиковать данные в общественных и коммерческих целях — разумеется, в стандартизированной форме, пригодной для машинного считывания и обработки, иначе эту информацию можно будет назвать общедоступной только номинально.
Идея открытых государственных данных получила развитие, когда Барак Обама в свой первый полный рабочий день 21 января 2008 года издал президентский указ, обязывающий руководителей федеральных агентств выпускать как можно больше данных. «Перед лицом сомнений открытость имеет приоритетное значение», — наставлял Обама.[106] Это блестящее заявление, особенно в сравнении с мнением его предшественника, который поручил агентствам делать прямо противоположное. По указу Обамы был создан сайт data.gov — хранилище общедоступной информации от федерального правительства. Сайт стремительно вырос с 47 наборов данных в 2009 году до почти 450 000, получаемых из 172 агентств, к своему трехлетию в июле 2012 года.
Значительный прогресс достигнут даже в сдержанной Великобритании, где большая часть государственной информации защищена авторским правом, принадлежащим короне, а получение лицензии на ее применение (например, почтовых индексов для интернет-компаний на карте) — трудоемкий и дорогостоящий процесс. Правительство Великобритании издало указы для поощрения открытости информации и поддержки в создании Института открытых данных (одним из руководителей которого стал Тим Бернерс-Ли, изобретатель всемирной паутины WWW), чтобы содействовать новейшим способам использования открытых данных и высвободить их из цепких рук государства.
Европейский союз объявил инициативы относительно открытых данных, которые вскоре могут приобрести континентальный масштаб. Некоторые страны других континентов, такие как Австралия, Бразилия и Чили, уже выпустили и реализовали стратегии открытых данных. Помимо национального уровня растет число городов и муниципалитетов по всему миру, которые также приняли открытые данные. Не отстают от них и международные организации, включая Всемирный банк, который открыл сотни наборов данных экономических и социальных показателей, доступ к которым ранее был ограничен.
Тем временем вокруг данных сформировались сообщества веб-разработчиков и передовых «умов», стремящихся выяснить способы получения максимальной отдачи от данных, например Sunlight Foundation в США и Open Knowledge Foundation в Великобритании.
Одним из первых примеров возможностей использования открытых данных является американский сайт FlyOnTime.us. Он позволяет в интерактивном режиме узнавать, среди прочего, вероятность того, что ненастная погода приведет к задержке рейсов в конкретном аэропорту. Сайт объединяет информацию о рейсах и о погоде из официальных источников данных, которые находятся в свободном доступе в интернете. Его разработали сторонники открытых данных, чтобы наглядно показать полезность информации, которую накопило федеральное правительство. Кроме того что данные общедоступны, исходный код сайта тоже открыт, так что другие могут учиться на его примере, а также использовать его повторно.
FlyOnTime.us дает возможность данным «говорить», и они нередко сообщают неожиданные факты. Например, на сайте можно увидеть, что на рейсах из Бостона в нью-йоркский аэропорт Ла Гуардиа задержки из-за тумана длятся вдвое дольше, чем из-за снега. Большинство людей, слоняющихся в зале вылета, вряд ли бы об этом догадались, ведь снег кажется более весомой причиной задержки. Это одно из тех открытий, которые становятся возможными благодаря большим данным. В данном случае понадобилось обработать статистические данные о задержках рейса из Транспортного бюро США, текущую информацию о ситуации в аэропорту из Федерального управления гражданской авиации США, предыдущие отчеты о погоде из Национального управления океанических и атмосферных исследований, а также информацию о погодных условиях в режиме реального времени из Национальной метеорологической службы. FlyOnTime.us показывает, что не обязательно собирать или контролировать информационные потоки, чтобы получать данные и применять их с пользой, как это делают поисковые системы и крупные розничные торговцы.
Оценить то, что бесценно
Измерить ценность данных — как общедоступных, так и закрытых в корпоративных хранилищах — непростая задача. Рассмотрим события пятницы 18 мая 2012 года. В тот день 28-летний основатель Facebook Марк Цукерберг из главного офиса компании в городе Менло-Парк, Калифорния, дал символический звонок к открытию биржи NASDAQ. Отныне крупнейшая в мире социальная сеть, которая могла похвастать тем, что в ней зарегистрирован каждый десятый человек на планете, стала публичной компанией. Пакет акций тут же вырос на 11%, как в большинстве технологических компаний в их первый торговый день. Ожидалось практически чистое удвоение стоимости. Но в тот день произошло нечто странное: акции Facebook начали падать. Оказалось, произошел технический сбой в компьютерах NASDAQ, который временно приостановил торговлю. Но надвигалась более масштабная проблема. Почувствовав неприятности, биржевые андеррайтеры во главе с Morgan Stanley вынуждены были искусственно поддерживать котировки не ниже цены выпуска.