Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим - Виктор Майер-Шенбергер 23 стр.


Когда обострился вьетнамский конфликт и США направили дополнительные войска, стало ясно, что это война характеров, а не территорий. Стратегия Америки заключалась в том, чтобы усадить Вьетконг[150] за стол переговоров. По этой причине военные успехи измерялись количеством убитых врагов. Эти данные публиковались в газетах и использовались как аргумент сторонниками войны, а для критиков служили доказательством их безнравственности. Подсчет убитых стал точкой данных, определившей новую эпоху.

В 1977-м, спустя два года после того, как последний вертолет поднялся с крыши посольства США в Сайгоне, отставной генерал армии Дуглас Киннард опубликовал масштабный опрос генералов под названием The War Managers.[151] Он показал трясину, в которой погрязло количественное измерение. Всего 2% американских генералов считали, что подсчет убитых был верным способом измерения военных успехов. Две трети сказали, что цифры часто были завышены. «Поддельные и совершенно бесполезные», — писал один из генералов в своих комментариях. «Нередко откровенно лживые», — считал другой. «Они были многократно преувеличены в основном из-за невероятного интереса со стороны таких людей, как Макнамара», — делился третий.

Подобно тому как заводские мастера Ford сбрасывали детали двигателей в реку, младшие офицеры порой подавали своему начальству внушительные цифры, чтобы сохранить свое место или продвинуться по службе. Они сообщали то, что начальство хотело услышать. Макнамара и его окружение полагались на цифры, буквально боготворя их. С превосходно уложенными волосами и безукоризненно завязанным галстуком, Макнамара чувствовал, что может понять то, что происходит на земле, только уставившись в таблицу — на все эти стройные ряды и столбцы, расчеты и графики, овладев которыми он, казалось бы, станет на одно стандартное отклонение ближе к Богу.

Использование данных и злоупотребление ими американскими военными во время войны во Вьетнаме свидетельствуют о том, насколько ограниченной является информация в эпоху «малых данных». Этот урок необходимо усвоить, поскольку мир вступает в эпоху больших данных. Исходные данные могут быть низкого качества или необъективными. Их можно неправильно использовать и анализировать. Но, что хуже всего, данные могут не отражать то, что призваны количественно измерить.

Мы более уязвимы перед лицом «диктатуры данных», чем можем себе это представить, позволяя данным управлять нами как во благо, так и во вред. Угроза состоит в том, что мы бездумно позволяем связывать себе руки результатами анализов данных, даже если есть разумные основания полагать, что в них что-то не так. Еще один пример — одержимость собирать факты и числа просто ради данных или безосновательно оказывать им чрезмерное доверие.

Ввиду массовой датификации первое, к чему стремятся политики и бизнесмены, — получить как можно больше данных. «Мы верим в Бога — остальное дело за данными» — вот мантра современного руководителя, которая эхом разносится по офисам Кремниевой долины, заводским цехам и коридорам мэрии. Большие данные могут стать кладом в заботливых руках. Но неразумное обращение с ними чревато жуткими последствиями.

Образование катится вниз? Введите стандартизированные тесты для измерения результативности и примените санкции к учителям и школам, которые не дотягивают до нужного уровня. И если тесты и вправду могут оценить способности школьников, то вопрос о качестве преподавания или потребности в творческой, гибкой, современной рабочей силе остается открытым. Но данные не берут это в расчет.

Хотите предотвратить терроризм? Создайте многослойные списки людей для обязательного досмотра или запрета на вылет, чтобы обеспечить охрану порядка в небе. Впрочем, защита, которую такие списки предлагают, весьма сомнительна. Известен случай, когда сенатор от штата Массачусетс Тед Кеннеди, случайно попавший в список, был задержан и подвержен обыску только потому, что его имя и фамилия совпали с именем и фамилией другого человека в базе данных.

У тех, кто имеет дело с данными, в ходу выражение, отражающее суть некоторых проблем: «Мусор на входе — мусор на выходе». Иногда причина в низком качестве исходной информации, но чаще — в злоупотреблении самим анализом. Из-за больших данных эти проблемы могут возникать чаще или с более существенными последствиями.

Вся деятельность компании Google, как уже было показано в этой книге на многочисленных примерах, построена на данных. Несомненно, они обусловили значительную долю успеха компании. Однако время от времени они же приводят ее к промахам. Сооснователи Google Ларри Пейдж и Сергей Брин длительное время запрашивали от соискателей их балл по тесту SAT (англ. Scholastic Assessment Test — «академический оценочный тест») при поступлении в колледж, а также средний балл при выпуске. Пейдж и Брин рассуждали так: первый показатель отражает потенциал кандидата, а второй — его достижения. Таким образом, состоявшиеся руководители в возрасте 40 лет, которые рассматривались на ту или иную должность, к своему откровенному недоумению, могли быть отсеяны из-за недобора баллов. Компания еще долгое время продолжала требовать эти цифры даже после того, как ее внутренние исследования показали, что между баллами и эффективностью работы нет корреляций.[152]

Google следовало бы лучше знать, как не попасться на удочку ложной прелести данных, ведь показатели практически не оставляют места для изменений в жизни человека. Они не берут в расчет знания помимо академических. Они не могут отразить достоинства людей гуманитарных, а не научных и технических специальностей, где инновационные идеи легче измерить. Одержимость данными в кадровых целях вызывает особое недоумение ввиду того, что сами основатели Google являются выпускниками школ Монтессори, в которых особое внимание уделяется именно обучению, а не оценкам. Кроме того, такой подход повторяет прошлые ошибки американских технологических электростанций, в которых резюме кандидатов ставили выше их способностей. Какими были бы шансы Ларри и Сергея занять руководящие должности в легендарной корпорации Bell Labs, учитывая их незаконченное высшее образование доктора философии? По стандартам Google ни Билл Гейтс, ни Марк Цукерберг не получили бы место, так как не имеют высшего образования.

Зависимость компании от данных порой зашкаливает. Марисса Майер, в то время один из руководителей высшего звена Google, однажды дала задание сотрудникам проверить, какой из 41 оттенка синего наиболее популярен у пользователей, чтобы определить цвет панели инструментов на сайте.[153] Диктатура данных в Google была доведена до крайности и вызвала мятеж.

В 2009 году ведущий дизайнер Google Дуг Боумен уволился в гневе, потому что не выдержал постоянного количественного измерения всего и вся. «Недавно я участвовал в дискуссии по поводу того, какой должна быть ширина границы: 3, 4 или 5 пикселей. Меня попросили обосновать свой выбор. Я не могу работать в таких условиях, — написал он в блоге о своей отставке. — Когда в компании одни инженеры, они все превращают в инженерное решение вопросов. Сводят все к простым логическим задачам. Эти данные в конечном счете становятся костылем, тормозящим движение каждого решения, парализуя компанию».[154]

Гениальность не зависит от данных. Стив Джобс мог бы долгие годы непрерывно совершенствовать ноутбук Mac на основе отчетов об эксплуатации, но он воспользовался своей интуицией, а не данными, чтобы выпустить на рынок iPod, iPhone и iPad. Он полагался на свое шестое чувство. «Знать, чего хотят покупатели, не их забота», — сказал он репортеру, рассказывая, что не проводил исследование рынка перед запуском iPad.[155]

В книге «Благими намерениями государства» антрополог Джеймс Скотт из Йельского университета рассказывает о том, как правительства, возводя в культ количественные измерения и данные, в конечном счете скорее ухудшают качество жизни людей, чем улучшают его. Они прибегают к картам для определения преобразований в обществах, но ничего не знают о людях на местах. С помощью огромных таблиц данных об урожаях они принимают решение о коллективизации сельского хозяйства, ничего в нем не смысля. Они берут на вооружение все несовершенные, естественные способы взаимодействия, которыми люди пользовались в течение долгого времени, и подстраивают их под свои нужды, иногда просто ради того, чтобы удовлетворить свое желание привести все к исчисляемому порядку. Информация, по мнению Скотта, часто служит для расширения возможностей власть имущих.[156]

Это диктатура данных с большой буквы. Из-за подобного высокомерия США начали войну во Вьетнаме, руководствуясь, в частности, количеством убитых, а не более разумными показателями. «Вы правы, что не все сложные человеческие ситуации, которые только можно представить, могут быть полностью сведены к линиям на графике, выражены в процентных точках на диаграмме или отражены в цифрах в балансе компании, — произнес Макнамара в 1967 году, в период нарастающих национальных протестов. — Но в действительности все может быть обосновано. И не измерять количественно то, что можно измерить, — все равно что довольствоваться меньшим, чем полный спектр причин».[157] Если бы только правильные данные использовались должным образом, а не просто почитались за то, что они есть.

В течение 1970-х годов Роберт Макнамара удерживал пост главы Всемирного банка, а в 1980 году стал «голубем мира» — ярым критиком ядерного оружия и сторонником охраны окружающей среды. Позже в результате переоценки ценностей он написал мемуары «Взгляд в прошлое», в которых критиковал образ мышления, стоящий за военными действиями, и собственные решения на посту министра обороны. «Мы были неправы, совершенно неправы», — писал Макнамара, в то время как речь шла о масштабной военной стратегии. Однако по вопросу данных и, в частности, подсчета убитых он остался далек от раскаяния. Макнамара признался, что статистика была «недостоверной или ошибочной». «Но все факторы, которые вы можете подсчитать, вы обязаны подсчитать. Потеря убитыми — один из них…» Он умер в 2009 году в возрасте 93 лет, считаясь человеком умным, но не мудрым.

Соблазнившись большими данными, мы рискуем совершить страшную ошибку, как Макнамара, или настолько сконцентрироваться на данных и власти, которую они сулят, что будем не в состоянии оценить их ограничения. Чтобы наглядно представить эквивалент подсчета убитых в виде больших данных, достаточно снова вернуться к Google Flu Trends. Рассмотрим ситуацию (не такую уж невероятную), когда смертельный грипп бушует по всей стране. Медицинские работники были бы признательны за возможность в режиме реального времени прогнозировать крупнейшие очаги с помощью поисковых запросов. Они бы знали, где нужна помощь.

Однако во время такого кризиса политические лидеры могут возразить, что знать наибольшие очаги заболевания и пытаться остановить их распространение недостаточно. Они призывают ввести режим всеобщего карантина (а не только для населения в охваченных регионах), по сути, излишнего. Большие данные дают возможность быть адресными и применять карантин только к отдельным пользователям, чьи поисковые запросы в значительной степени коррелируют с гриппом. Таким образом, мы получаем данные о тех, кого нужно изолировать. Федеральные агенты, вооруженные списками IP-адресов и информацией GPS о мобильных устройствах, могут объединить отдельные запросы веб-поиска в карантинные центры.

Может показаться, что это оправданно, однако в корне неправильно. Корреляция не означает причинности. Эти люди могут болеть гриппом, но могут и быть здоровыми. Их необходимо обследовать. В такой ситуации люди стали бы заложниками прогноза. Что еще более важно, они стали бы жертвами апологии данных, которые по самой природе своей не могут отразить информацию такого рода. Суть фактического исследования Google Flu Trends состоит в том, что условия поиска связаны со вспышкой. Но причины тому могут быть совершенно разными: например, сотрудники могли услышать, как кто-то в офисе чихнул, и решили поискать в интернете информацию о том, как защититься, а сами при этом здоровы.

Темная сторона больших данных

Большие данные предоставляют больше возможностей наблюдать за нашей жизнью, во многом упраздняя некоторые правовые средства защиты неприкосновенности частной жизни. Они также сводят на нет эффективность основных технических методов сохранения анонимности. Как и фактическое нарушение правопорядка, прогнозы больших данных относительно отдельных лиц могут повлечь за собой наказание — однако не за действия, а за склонности. Такое положение дел отрицает свободу воли и унижает человеческое достоинство.

В то же время существует реальный риск того, что, поддавшись магии больших данных, люди станут руководствоваться ими в неподходящих условиях или же слишком полагаться на результаты анализов. Точность прогнозов будет возрастать, а с нею и желание все чаще пользоваться ими, подпитывая, в свою очередь, одержимость данными, раз они имеют такие широкие возможности. Такими были проклятие Макнамары и урок, который можно извлечь из его истории.

Нужно умерить увлечение данными, чтобы не повторить ошибку Икара, который гордился своей технической возможностью летать, но неправильно воспользовался ею и упал в море. В следующей главе мы рассмотрим способы, благодаря которым мы будем управлять данными, а не они нами.

Глава 9 Контроль

Изменение способов производства информации и взаимодействия с ней поневоле меняет правила самоуправления. А эти изменения, хотим мы того или нет, преобразуют основные ценности, которые общество должно защищать. Вспомним предыдущий наплыв данных, который произошел благодаря печатному станку.

До того как Гутенберг изобрел наборный шрифт (примерно в 1450 году), распространять идеи было нелегко. Книги в основном находились в монастырских библиотеках, строго охраняемых монахами в соответствии с правилами, которые католическая церковь предусмотрительно установила для защиты своего господства. Вне церкви нескольким университетам удалось собрать десятки или, быть может, пару сотен книг. Библиотека Кембриджского университета была основана в XV веке с фондом в 122 тома.[158] Серьезным препятствием на пути распространения информации являлась безграмотность.

Благодаря печатному станку Гутенберга стало возможным массовое производство книг и брошюр. Переведя Библию с латинского языка на немецкий и тем самым открыв ее для многих читателей, которые получили возможность узнать слово Божье без помощи священников, Мартин Лютер мог напечатать и распространить ее среди сотен тысяч людей. Поток информации превратился из ничтожного в огромный. В конечном счете общество установило новые правила для управления информационным взрывом, вызванным изобретением Гутенберга.

Были созданы законы (например, об авторском праве), призванные расширить возможности авторов и дать им правовой и экономический стимул творить. Когда светское государство объединило свою власть, интеллигенция той эпохи стала добиваться установления правил для защиты слова от правительственной цензуры. В итоге свобода слова превратилась в конституционную гарантию. Но, как всегда, права влекут за собой обязанности. По мере того как недобросовестные газеты вторгались в частную жизнь людей или порочили их репутацию, возникали новые правила, чтобы оградить частную жизнь людей и дать им возможность подать в суд за клевету.

Изменились не только правила. Изменился и уровень доступности информации, что отразилось и на наших ценностях. В эпоху до печатного станка все управление сводилось к тому, чтобы спрятать всю текстовую информацию. Благодаря изобретению Гутенберга мы смогли по достоинству оценить, что значит широкое распространение информации в обществе. Столетия спустя мы предпочитаем получать как можно больше (а не меньше) информации, защищаясь от ее избытка не цензурой, а в первую очередь с помощью правил, ограничивающих злоупотребление информацией.

По мере того как мир движется в сторону больших данных, общество подвергается подобному «тектоническому» сдвигу. Большие данные заставляют нас пересмотреть фундаментальные представления о том, как стимулировать их рост и умерять потенциальный вред, поскольку они во многом меняют наш образ жизни и мышления. Однако, в отличие от печатной революции, на раздумья нам отведены не столетия, а, возможно, всего каких-то пара лет.

Защита частной жизни потребует от лиц, имеющих дело с личными данными, большей ответственности за свою политику и действия. Нам предстоит пересмотреть свое представление о справедливости, чтобы гарантировать человеческое право на свободу действий (и, конечно, соблюдение ответственности за эти действия). Понадобятся новые учреждения и эксперты (так называемые «алгоритмисты»), чтобы интерпретировать сложные алгоритмы, на основе которых формируются выводы из больших данных, и защищать интересы тех, кто может от этих выводов пострадать, например получить отказ в приеме на работу или хирургическом вмешательстве или не получить кредит из-за того, что о них «говорят» большие данные. Дело не в адаптации существующих правил, а в создании новых.

От безопасности к отчетности

На протяжении десятилетий важнейший принцип конфиденциальности во всем мире заключался в том, чтобы предоставить людям возможность самим решать, кто и как имеет право обрабатывать их личную информацию. В век интернета это достойное правило превращается в шаблонную систему «уведомления и согласия». В эпоху больших данных, когда больше пользы приносит вторичное применение данных, далеко не всегда предсказуемое на момент их сбора, этот принцип уже не так актуален.

Намного разумнее было бы отменить практику индивидуального управления конфиденциальностью и заменить ее расширенной подотчетностью, которая предъявлялась бы к пользователям данных, повышая их ответственность за свои действия. Компании, работающие с данными, больше не смогли бы приводить в свое оправдание то, что человек разрешил их использовать. Напротив, им пришлось бы оценивать потенциальные опасности, с которыми могут столкнуться люди при вторичном применении их данных. И только убедившись, что уровень угрозы низкий (то есть возможный ущерб ограничен или гарантированно может быть снижен), компании могли бы воплощать в жизнь свои планы. А в случае неправильной оценки угроз или небрежной реализации планов компании можно было бы привлечь к ответственности за нанесенный ущерб. В свою очередь, правила должны предусматривать вторичное использование данных в большинстве случаев без явного согласия.

Назад Дальше