Глава 4
Белые воротнички под угрозой
11 октября 2009 г. Los Angeles Angels обыграли Boston Red Sox в плей-офф Американской лиги, заработав право сразиться с New York Yankees за звание чемпиона лиги и место в Мировой серии. Для Angels эта победа была наполнена особым смыслом: всего за шесть месяцев до того один из самых многообещающих игроков команды питчер Ник Аденхарт погиб в аварии, виновником которой был пьяный водитель. Один спортивный журналист начал свою статью об игре следующими словами:
"Когда в воскресенье на стадионе "Фенуэй Парк" в девятом иннинге Angels проигрывали с разницей в две пробежки, никто уже не верил в их победу, но лосанджелесцы сумели переломить ход игры благодаря важнейшему синглу Владимира Гуэрреро, вырвав победу у Boston Red Sox со счетом 7–6.
Гуэрреро принес Angels два рана. Cчет на подаче был 2–4.
"Если вспоминать о Нике Аденхарте и апрельской трагедии в Анахайме, да, пожалуй, это был самый важный хит [в моей карьере], - сказал Гуэрреро. - Так что я посвящаю эту победу своему бывшему товарищу по команде, парню, которого с нами уже нет".
Гуэрреро хорошо себя проявил во всех играх сезона, особенно в дневных. В дневных играх он показал OPS [процент занятия базы плюс слаггинг] на уровне 0,794. Он выбил пять хоумранов и принес 13 ранов в 26 дневных играх".
Автору этого текста, наверное, вряд ли стоит рассчитывать на какие-либо награды за свой писательский труд. Тем не менее приведенный выше рассказ - поразительное достижение: дело не в том, что он хорошо читается, в нем нет грамматических ошибок и он содержит точное описание бейсбольного матча; просто его автор - компьютерная программа.
Эту программу (под названием StatsMonkey) создали студенты и преподаватели Лаборатории интеллектуальной информации (Intelligent Information) при Северо-Западном университете. StatsMonkey предназначена для автоматизации процесса написания материалов о спорте за счет превращения объективных данных об отдельно взятой игре в захватывающее повествование. Возможности системы выходят далеко за рамки простого перечисления фактов; скорее, она описывает события, добавляя в рассказ все те основные атрибуты спортивной журналистики, которые присущи работам журналистов-людей. Для выявления значимых событий, имевших место во время матча, StatsMonkey выполняет статистический анализ; затем она использует естественный язык для создания текста, в котором кратко описывается ход игры, а также уделяется особое внимание решающим моментам и ключевым игрокам, определившим ее исход.
В 2010 г. исследователи из Северо-Западного университета, которые руководили работавшей над StatsMonkey группой студентов, специализировавшихся в области вычислительной техники и журналистики, получили финансовую поддержку от венчурных инвесторов и основали новую компанию под названием Narrative Science, Inc. с целью коммерциализации данной технологии. Компания наняла лучших специалистов в области вычислительных систем и инженеров; новая команда избавилась от первоначального кода StatsMonkey и создала значительно более мощную и комплексную систему искусственного интеллекта, которая получила название Quill.
Технология Narrative Science используется крупнейшими средствами массовой информации, в том числе Forbes, для написания статей на различные темы, включая спорт, бизнес и политику. Разработанное компанией ПО генерирует новостные материалы приблизительно каждые 30 секунд; при этом многие из них публикуются на популярных сайтах, которые предпочитают не афишировать свою связь с данным сервисом. В 2011 г. в ходе отраслевой конференции корреспондент Wired Стивен Леви попросил одного из основателей Narrative Science Кристиана Хэммонда оценить, какой будет доля новостных материалов, написанных с помощью программных алгоритмов, в ближайшие 15 лет. В ответ он услышал: более 90 %.
Narrative Science строит далекоидущие планы, не собираясь ограничиваться одной лишь индустрией новостей. Назначение Quill - служить универсальной платформой для анализа и написания нарративных текстов, составлять высококачественные отчеты как для внутреннего пользования, так и для публикации в ряде отраслей. Работа Quill начинается со сбора данных из различных источников, включая базы данных о транзакциях, системы финансовой и торговой отчетности, сайты и даже социальные медиа. Затем система выполняет анализ собранных данных, выбирая самые важные и интересные факты и выводы. Наконец, она сплетает из всей этой информации связное повествование, которое, по заверениям компании-разработчика, сопоставимо с результатами труда лучших аналитиков. После соответствующей настройки система Quill способна практически мгновенно формировать бизнес-отчеты с заданной периодичностью - и все это без вмешательства человека. Учитывая, что одним из первых инвесторов, поддержавших Narrative Science в самом начале пути, было In-Q-Tel - подразделение ЦРУ, отвечающее за венчурные проекты, можно с большой долей уверенности утверждать, что разработанные компанией инструменты будут использоваться для автоматического преобразования потоков необработанных данных, собираемых специалистами американской разведки, в удобный для понимания повествовательный формат.
Пример технологии Quill демонстрирует, насколько уязвимыми для автоматизации оказываются задачи, которые когда-то считались исключительной прерогативой высококвалифицированных профессионалов с высшим образованием. Разумеется, связанная со знаниями работа обычно предполагает наличие широкого круга навыков и талантов. Среди прочего аналитик должен уметь извлекать информацию из различных систем, строить статистические или финансовые модели, а затем доходчиво доносить результаты своей работы до аудитории в виде отчетов или презентаций. Может показаться, что писательский труд - в котором, как ни крути, столько же искусства, сколько и науки, - относится к видам деятельности, в последнюю очередь поддающимся автоматизации. Но, как оказывается, это совсем не так, а алгоритмы с каждым днем становятся все более совершенными. Более того, учитывая то, что для автоматизации профессий, связанных с умственным трудом, достаточно одного лишь ПО, соответствующие рабочие места во многих случаях могут оказаться более уязвимыми, чем рабочие места для людей с низкой квалификацией, предполагающие физический труд.
Стоит отметить, что письменная речь относится к тем навыкам, которые, судя по жалобам работодателей, чаще всего недостаточно хорошо развиты у выпускников колледжей. По данным одного из недавних опросов работодателей, около половины всех принятых на работу выпускников, проведших в колледже два года, и более четверти выпускников с четырехлетним образованием не умеют письменно излагать свои мысли, а в некоторых случаях еще и недостаточно хорошо читают. Если интеллектуальное ПО способно, как это утверждают специалисты Narrative Science, составить конкуренцию самым талантливым аналитикам, рост потребности в специалистах, чья работа связана с умственным трудом, в будущем оказывается под большим вопросом. Это касается всех выпускников колледжей, в особенности наименее подготовленных.
Большие массивы данных и машинное обучение
Система написания нарративных текстов Quill - лишь один из многих примеров нового прикладного ПО, разрабатываемого с целью обеспечения максимально эффективного использования тех огромных объемов данных, которые собирают и хранят частные компании, организации и государственные органы повсюду в мире. По некоторым оценкам, общий объем хранимых в мире данных в настоящее время измеряется тысячами экзабайт (1 экзабайт равен 1 млрд гигабайт); причем эта величина постоянно растет в соответствии с законом, напоминающим закон Мура, удваиваясь приблизительно каждые три года. Почти все эти данные сегодня хранятся в цифровом формате, а значит, компьютеры могут работать с ними напрямую. Одни только серверы Google ежедневно обрабатывают около 24 петабайт (1 петабайт равен 1 млн гигабайт) данных, главным образом относящихся к поисковым запросам миллионов пользователей.
Все эти данные поступают из множества разнородных источников. Если взять один только Интернет, это будут данные о посещениях сайтов, поисковых запросах, сообщениях электронной почты, общении в социальных медиа, переходах по рекламным ссылкам и многое, многое другое. Если брать бизнес-сектор, то следует упомянуть данные о транзакциях, договорах с клиентами, внутренних коммуникациях, а также данные из финансовых, бухгалтерских и маркетинговых систем. На заводах, в больницах, автомобилях, самолетах и бесчисленных устройствах бытового и промышленного назначения непрерывно собираются данные в режиме реального времени.
Подавляющее большинство этих данных представляют собой то, что специалисты по компьютерным вычислениям называют "неструктурированными" данными. Другими словами, они поступают в различных форматах, которые трудно поддаются сопоставлению или сравнению. Это очень сильно отличает их от содержимого традиционных реляционных баз данных, в которых информация хранится в виде аккуратно упорядоченных строк и столбцов, что обеспечивает высокую скорость, надежность и точность поиска. Обработка неструктурированных данных потребовала создания новых инструментов, специально предназначенных для углубленного анализа информации, собранной из различных источников. Стремительный прогресс в этой области - всего лишь еще один пример того, как компьютеры, пускай и в довольно упрощенной форме, учатся делать то, что совсем недавно было доступно только людям. Все-таки способность непрерывно обрабатывать поток неструктурированной информации из множества различных источников во внешней среде всегда относилась к числу уникальных для человека механизмов адаптации. Разница, разумеется, в том, что человек никогда не сможет оперировать большим объемом данных в тех же масштабах, что и компьютеры. Большие данные оказывают революционное воздействие на широкий круг областей, включая бизнес, политику, медицину и практически все группы естественных и социальных наук.
Благодаря большим данным крупнейшие ретейлеры могут получить небывало подробное представление о покупательских предпочтениях отдельных потребителей, что дает им возможность формулировать адресные предложения и тем самым увеличивать собственную выручку, при этом повышая лояльность клиентов. Полицейские по всему миру обращаются к алгоритмическому анализу для прогнозирования наиболее вероятных мест и периодов совершения преступлений и распределяют свои силы в соответствии с полученными результатами. На специальном портале жители Чикаго могут ознакомиться как с ретроспективными, так и с актуальными данными, относящимися к самым разным сферам жизни и отражающими самые разные аспекты существования в большом городе, включая потребление энергии, уровень преступности, показатели эффективности работы транспортной инфраструктуры, школ, учреждений здравоохранения и даже количество выбоин и ям на дорогах, которые латали в конкретный период времени. Благодаря инструментам, которые реализуют новые способы визуализации данных, полученных путем анализа общения в социальных медиа, а также поступающих с датчиков, встроенных в двери, турникеты и эскалаторы, градостроители и сотрудники городской администрации могут наблюдать за тем, как люди перемещаются, работают и общаются в пределах городской среды, получая возможность оперативно корректировать свои действия с целью повышения эффективности работы городских служб и создания максимально комфортных условий для жизни.
Однако у этой тенденции есть и обратная сторона. Деятельность компании Target, Inc. является примером куда более спорного подхода к использованию огромных массивов чрезвычайно подробных данных о клиентах в коммерческих целях. Эта компания наняла специалиста по анализу и обработке данных, который обнаружил сложный набор корреляций, позволяющих с очень большой долей вероятности предсказывать наличие беременности на раннем сроке у покупательниц на основе анализа продаж по двадцати пяти различным видам косметической и медицинской продукции. Проводимый компанией анализ был настолько точным, что даже позволял с высокой степенью точности определять срок беременности у конкретной женщины. Получив эти данные, сотрудники Target начинали забрасывать женщин предложениями о покупке товаров для беременных, да еще и на столь раннем сроке, что во многих случаях ближайшее окружение женщины даже не знало о ее положении. В начале 2012 г. в The New York Times была опубликована статья, в которой рассказывалось об одном любопытном случае: ничего не подозревавший отец девочки-подростка пожаловался руководству магазина на неподобающие рекламные материалы, присылаемые на почтовый адрес семьи, а потом узнал, что сотрудники Target фактически были лучше осведомлены о жизни его дочери, чем он сам. Некоторые критики опасаются, что эта не самая приятная история - лишь начало и что большие данные все чаще и чаще будут использоваться для получения информации, которая может нарушать неприкосновенность частной жизни или даже угрожать свободе.
Выводы, получаемые при анализе больших данных, как правило, основываются исключительно на корреляциях и ничего не говорят о причинах изучаемого феномена. Алгоритм может выяснить, что если A соответствует действительности, то и B, скорее всего, тоже верно. Но он не способен установить причинно-следственную связь между A и B и уж тем более не может установить, обусловлены ли A и B каким-либо иным внешним фактором. Во многих случаях, однако, и в особенности в мире бизнеса, где абсолютным критерием успеха является прибыльность и эффективность, а не глубина понимания, даже простая корреляция сама по себе может представлять очень большую ценность. Большие данные могут стать для менеджмента источником подробнейших сведений по самому широкому кругу вопросов: все - от параметров работы каждого отдельного станка до общих результатов работы международной корпорации - может быть потенциально подвергнуто анализу с такой степенью подробности, которая прежде была просто невозможна.
Непрерывно увеличивающийся в объеме массив данных все чаще рассматривается в качества своего рода ресурса, который, если за него взяться как следует, может стать источником ценной информации, причем не только сейчас, но и в будущем. Глядя на компании в добывающих отраслях (например, нефтегазовой), год за годом с успехом пользующихся плодами технического прогресса, легко представить, как, вооружившись возросшей вычислительной мощью компьютеров, а также усовершенствованным ПО и новыми методами анализа, корпорации во всех секторах экономики препарируют данные, извлекая из них знания, которые сразу превращаются в дополнительную прибыль. Более того, как раз вера инвесторов в то, что все так и будет, судя по всему, и является главным фактором, обуславливающим такую громадную рыночную стоимость компаний, работающих с большими объемами данных, т. е. таких, как Facebook.
Машинное обучение - метод, при котором компьютер перебирает данные и, по сути, пишет собственную программу на основе обнаруженных статистических закономерностей, - является одним из наиболее эффективных средств извлечения самой ценной информации. Как правило, процесс машинного обучения разбивается на два этапа: сначала алгоритм обучается на имеющихся данных, а затем применяется к новой информации для решения похожих задач. Самый очевидный пример использования машинного обучения на практике - фильтры спама в электронной почте. На этапе обучения алгоритм обрабатывает миллионы сообщений, заранее помеченных как спам или не спам. При этом никто не садится и не программирует систему напрямую так, чтобы она могла распознавать все мыслимые способы написания слова "виагра". Вместо этого программа учится самостоятельно распознавать нужную информацию. Результатом обучения является приложение, которое способно автоматически идентифицировать основной массив нежелательной почты и при этом постоянно совершенствоваться и адаптироваться по мере появления новых образцов спама. Алгоритмы машинного обучения, работающие на основе тех же самых принципов, используются и при подборе рекомендуемых книг на Amazon, фильмов - на Netflix и потенциальных партнеров - на Match.
Одним из самых впечатляющих примеров эффективности машинного обучения стал созданный Google онлайн-переводчик. Используемые в нем алгоритмы основаны на подходе, который можно назвать подходом Rosetta Stone и который предполагает анализ и сравнение миллионов страниц текста, который уже был переведен на различные языки. Разработчики Google начали с официальных документов Организации Объединенных Наций, а затем расширили круг исходных текстов, включив в него содержимое Всемирной паутины. Чтобы найти достаточное количество примеров для ненасытных алгоритмов самообучения, они использовали поисковую систему Google. Если судить по одному только количеству документов, использовавшихся в процессе обучения системы, то становится очевидно, что ничего подобного прежде не было. Специалист в области компьютерных вычислений Франц Ок, который руководил проектом, отметил, что его команда выстроила "очень-очень большие языковые модели, намного более масштабные, чем все, что было прежде за всю историю человечества".