Для обработки этих данных США строят гигантские центры, такие как здание АНБ в Форт-Уильямс, Юта, стоимостью в 1,2 миллиарда долларов.[143] Все государственные органы, а не только спецслужбы по борьбе с терроризмом требуют больше информации, чем раньше. Когда список данных расширяется, включая сведения о финансовых операциях, медицинских картах, обновлениях статуса в Facebook и пр., их собирается невообразимое количество. Государственные органы не в состоянии обработать столько всего. Так зачем собирать?
Ответ на этот вопрос показывает, как изменился способ наблюдения в эпоху больших данных. В прошлом исследователи крепили щипковые зажимы к телефонным проводам, чтобы получить максимум информации о подозреваемом. Важно было как можно полнее изучить, что он собой представляет. Сегодня иной подход. Новое мышление (в духе Google и Facebook) состоит в том, что люди — совокупность их социальных отношений, взаимодействий в интернете и связей с контентом. Чтобы полностью изучить человека, аналитикам нужно просмотреть как можно более широкий круг периферических данных — узнать не только с кем он знаком, но и с кем знакомы его знакомые и т. д. Раньше это было технически трудновыполнимо, а теперь — проще, чем когда-либо.
Однако сколько бы опасений ни вызывала способность бизнеса и правительства извлекать нашу личную информацию, в связи с большими данными возникает более актуальная проблема: использование прогнозов в вынесении приговора.
Вероятность и наказание
Джон Андертон, начальник специального полицейского подразделения в Вашингтоне, округ Колумбия, одним прекрасным утром врывается в пригородный дом за считаные секунды до того, как разъяренный Говард Маркс вот-вот вонзит ножницы в тело своей жены, которую он застал в постели с любовником. Для Андертона это всего лишь очередной день профилактики тяжких преступлений. «Как представитель отдела по профилактике преступлений округа Колумбия, — произносит он, — заявляю: вы арестованы по обвинению в будущем убийстве Сары Маркс, которое должно было произойти сегодня…»
Полицейские связывают Маркса, который кричит: «Я ничего не сделал!»
Начальный эпизод фильма «Особое мнение» изображает общество, в котором предсказания выглядят настолько точными, что полиция арестовывает частных лиц за еще не совершенные преступления. Людей сажают в тюрьму не за фактические действия, а за предсказанные, даже если на самом деле преступлений не произошло. Причиной тому является не анализ данных, а видения трех ясновидящих. Мрачное будущее, изображенное в фильме, показывает именно то, к каким угрозам может привести неконтролируемый анализ больших данных: признание вины на основе индивидуальных предсказаний будущего поведения.
Мы уже видим первые ростки. Комиссии по условно-досрочному освобождению в тридцати штатах используют прогнозы, основанные на анализе данных, как фактор при принятии решений, стоит ли освобождать того или иного заключенного. Все чаще правоохранительные органы в Америке — от избирательных участков в Лос-Анджелесе до целых городов, таких как Ричмонд и Вирджиния, — используют «прогностический полицейский контроль», то есть с помощью анализа больших данных выбирают улицы, группы и частных лиц для дополнительной проверки просто потому, что алгоритм указал на них как на более склонных к совершению преступлений.
В Мемфисе программа под названием Blue CRUSH (англ. Crime Reduction Utilizing Statistical History — «снижение преступности на основе статистических данных») предоставляет полицейским относительно точные данные о зонах потенциальной угрозы с точки зрения места (в пределах нескольких кварталов) и времени (в пределах нескольких часов конкретного дня недели). Система, по всей видимости, помогает правоохранительным органам лучше распределять свои ограниченные ресурсы. Согласно одному из подсчетов, с момента создания системы в 2006 году количество основных имущественных и насильственных преступлений снизилось на четверть (хотя, конечно, нет никакой причинно-следственной связи, указывающей на то, что это как-то связано с Blue CRUSH).[144]
В рамках инициативы в Ричмонде, Вирджиния, полиция устанавливает корреляции между данными о преступлениях и дополнительными наборами данных, например датами выплаты зарплат в крупных компаниях города, а также датами местных концертов или спортивных мероприятий. Как показывает практика, они подтверждают, а иногда и уточняют подозрения полицейских о тенденциях в области преступности. Например, полиция Ричмонда давно предполагала, что за оружейными шоу следует резкий рост тяжких преступлений. Анализ больших данных доказал их правоту, но с одной оговоркой: скачок преступности происходил через две недели после события, а не сразу после него.[145]
Такие системы направлены на профилактику преступлений путем их прогнозирования вплоть до выявления частных лиц, которые могут их совершить. Большие данные здесь служат новым целям: с их помощью можно было бы предупреждать преступления. Звучит многообещающе. Разве не лучше остановить человека до совершения преступления, чем наказывать его после? Нам удалось бы избежать трагических происшествий. В итоге выиграли бы не только потенциальные жертвы, но и общество в целом.
Однако это скользкий путь. Если на основе анализа больших данных мы сможем прогнозировать возможных преступников, то вряд ли станем довольствоваться профилактикой преступлений. Вероятно, мы захотим наказать потенциальных виновников. Это вполне логично. Если мы просто вмешаемся, чтобы не допустить незаконные действия, предполагаемый преступник, освобожденный от наказания, может попробовать еще раз. Но мы надеемся удержать его от такой попытки, возлагая на него ответственность за свои действия (в том числе будущие).
Прогноз на основе наказания кажется шагом вперед по сравнению с практикой. Профилактика нездорового, опасного или незаконного поведения является краеугольным камнем современного общества. Мы ограничили условия для курящих, чтобы предупредить рак легких, требуем пристегивать ремни безопасности, чтобы предотвратить жертвы ДТП, и не пускаем на борт самолетов людей с оружием, чтобы не допустить угонов. Все эти профилактические меры ограничивают нашу свободу, но мы готовы их принять как небольшую плату взамен на прогнозирование гораздо большего ущерба.
Во многих случаях анализ данных уже работает на профилактику. С его помощью людей объединяют в группы по общему признаку, а затем соответственно оценивают их. Страховые таблицы свидетельствуют, что мужчины старше пятидесяти склонны к раку простаты. Поэтому, если вы относитесь к этой группе, возможно, вам придется больше платить за медицинскую страховку, даже если вы не больны. Студенты, бросившие вуз, воспринимаются как группа людей, склонных не погашать кредиты, так что человек без высшего образования может получить отказ в кредите или будет вынужден оплачивать более высокие страховые тарифы. Кроме того, лица с определенными отличительными признаками подвергаются дополнительной проверке при прохождении контроля безопасности в аэропорту.
В современном мире малых данных такая методика получила название «профайлинг» (профилирование). Это поиск характерных ассоциаций в данных с последующим анализом тех, кто подходит под их описание. Это обобщенное правило, которое относится ко всем участникам группы. «Профайлинг» — весомое слово. Оно подразумевает не только дискриминацию в отношении определенных групп, но и при неправильном использовании означает «вину по ассоциации». Профайлинг имеет серьезные недостатки.[146]
Используя большие данные, мы можем определять не группы, а конкретных лиц, что избавляет нас от существенного недостатка профайлинга: каждый прогностически подозреваемый превращается в виновного по ассоциации. В мире больших данных человек с арабским именем, рассчитавшийся наличными за билет в одну сторону в первом классе, больше не должен подвергаться вторичной проверке в аэропорту, если остальные данные указывают, что он, скорее всего, не террорист. Благодаря большим данным мы можем избежать ограничений профайлинга — этой смирительной рубашки групповых особенностей — и заменить их более подробными прогнозами на каждого человека.
Роль больших данных в признании виновности частных лиц состоит в том, что, хотя мы делаем то же, что и раньше (профайлинг), но делаем это лучше, тщательнее, с индивидуальным подходом и меньшей дискриминацией. Такой подход приемлем, если целью является предотвращение нежелательных действий. Но он таит в себе огромную опасность, если прогнозы больших данных послужат принятию решений о виновности и наказании за еще не совершенные поступки.
Наказывать исходя из вероятности будущего поведения — значит отрицать саму основу традиционного правосудия, когда сначала совершается поступок, а затем уже человека можно привлечь к ответственности. В конце концов, думать о противоправных поступках не воспрещается, а вот совершать их — незаконно. Один из основополагающих принципов нашего общества состоит в том, что каждый несет ответственность за свой выбор действия. Если кого-то под дулом пистолета заставили открыть сейф компании, у него не было выбора и, следовательно, он не несет ответственности.
Если бы прогнозы больших данных были совершенными и алгоритмы могли предвидеть наше будущее с абсолютной точностью, мы не имели бы выбора, как поступать в будущем. Мы вели бы себя именно так, как предсказано. Если бы совершенные прогнозы были возможны, они бы отрицали человеческую волю, нашу способность жить свободной жизнью и, по иронии судьбы, из-за отсутствия выбора освобождали бы нас от любой ответственности.
Идеальное прогнозирование невозможно. Анализ больших данных, скорее, дает возможность прогнозировать наиболее вероятное поведение конкретного человека в будущем. Рассмотрим модель больших данных профессора Пенсильванского университета Ричарда Берка. Он утверждает, что эта модель может спрогнозировать, совершит ли убийство заключенный, если его выпустить условно-досрочно на поруки. В качестве исходных данных Берк использует бесчисленные переменные конкретных случаев, включая причину лишения свободы, дату первого преступления, а также демографические данные, такие как возраст и пол. Берк считает, что может прогнозировать будущее поведение с 75%-ной точностью. Что ж, неплохо. Но это также означает, что, если комиссия по условно-досрочному освобождению станет полагаться на анализ Берка, одно из ее четырех решений окажется ошибочным, то есть комиссия напрасно лишит свободы раскаявшихся заключенных либо отпустит на волю будущих убийц.
Основная проблема не в том, что общество подвергается большему риску, чем необходимо. Главная беда в том, что при такой системе мы наказываем людей, лишая их личной свободы, прежде чем они сделают что-то плохое. А путем предварительного вмешательства мы никогда не узнаем, что произошло бы на самом деле. Мы не позволяем судьбе вмешаться и при этом привлекаем частных лиц к ответственности за их возможные поступки, которые мы спрогнозировали. Такие прогнозы невозможно опровергнуть.
Это сводит на нет саму идею презумпции невиновности, которая лежит в основе нашей правовой системы и, по сути, нашего чувства справедливости. Поскольку мы несем ответственность за действия, которых, возможно, никогда не совершим, ответственность за спрогнозированные действия также отрицает способность людей делать нравственный выбор.
Опасность выходит далеко за рамки уголовного правосудия. Она охватывает все случаи человеческих суждений, в которых прогнозы больших данных используются для признания нашей виновности в будущих действиях. Сюда входят дела гражданских судов о совершении проступка по неосторожности, а также корпоративные решения по увольнению сотрудников.
Возможно, с такой системой общество стало бы более безопасным и эффективным, но разрушилась бы существенная часть того, что делает человека человеком, — наша способность выбирать действия и нести за них ответственность. Большие данные стали бы инструментом коллективизации человеческого выбора и отказа от свободы воли в нашем обществе.
Как уже говорилось в предыдущих главах, у больших данных множество преимуществ. И если они превратятся в самое мощное орудие дегуманизации, то не из-за свойственных им недостатков, а из-за того, что мы сделаем с прогнозами. Принуждая людей отвечать за спрогнозированные, но еще не совершенные действия, мы полагаемся на прогнозы больших данных, полученные на основе корреляций, и принимаем решения о виновности, которые должны учитывать причинные связи.
Большие данные помогают лучше понять текущие и будущие риски, а также скорректировать свои действия соответствующим образом. Их прогнозы помогают пациентам и страховщикам, кредиторам и потребителям. Но большие данные ничего не говорят о причинности. В отличие от них для признания «вины» — виновности частных лиц — требуется, чтобы подсудимый выбрал то или иное действие. Его решение служит причиной для последующего проступка. Именно потому, что большие данные основаны на непричинных корреляциях, они непригодны для того, чтобы судить о причинности, а значит, и признавать чью-либо виновность.
Беда в том, что люди настроены смотреть на мир сквозь призму причин и следствий. Таким образом, большие данные находятся под постоянной угрозой неправильного использования — в целях установления причинности или подкрепления наших наивных предположений о том, насколько эффективнее стал бы процесс принятия решений о признании виновности, если бы мы вооружились прогнозами больших данных.
Это скользкий путь в мир, изображенный в кинофильме «Особое мнение», в котором индивидуальный выбор и свобода воли ликвидированы, личный моральный компас заменен интеллектуальными алгоритмами, а частные лица беспрепятственно подвергаются коллективному суду. В таких условиях большие данные угрожают сделать нас заключенными (возможно, в буквальном смысле) в рамках вероятностей.
Диктатура данных
Большие данные бесцеремонно вторгаются в частную жизнь и угрожают свободе, создавая для нас невиданные риски. При этом они усугубляют старую проблему — привычку полагаться на цифры, в то время как они гораздо более подвержены ошибкам, чем мы думаем. Пожалуй, наиболее яркий пример того, как последствия анализа данных могут завести в тупик, — история Роберта Макнамары.
Макнамара был мастером по части чисел. Будучи назначенным министром обороны США в период напряженности во Вьетнаме в начале 1960-х годов, он настаивал на повсеместном внедрении данных. Макнамара считал, что только применение статистической строгости поможет ответственным лицам, принимающим решения, понять сложную ситуацию и сделать правильный выбор. Мир, по его мнению, представлял собой массу непокорной информации, а если ее определить, обозначить, разграничить и количественно измерить, ее можно приручить и подчинить своей воле. Макнамара искал Истину в данных. Среди цифровых данных, которые обернулись против него, был «подсчет убитых».
Макнамара развил свою любовь к числам, еще будучи студентом Гарвардской школы бизнеса, а затем стал самым молодым доцентом — в 24 года.[147] Он применил свои навыки во время Второй мировой войны в составе элитной группы военного министерства США «Статистическое управление», которая внедрила процесс принятия решений на основе данных в крупнейшую бюрократическую систему в мире. До этого военный сектор был слеп. Ему не были известны, например, тип, количество и расположение запасных частей самолета. Одно лишь проведение комплексной инвентаризации в 1943 году сэкономило 3,6 миллиарда долларов.[148] Условием современной войны стало эффективное распределение ресурсов. Работа группы имела ошеломительный успех.
По окончании войны группа решила держаться вместе и применить свои навыки в интересах американских корпораций. В то время компания Ford испытывала некоторые трудности. Отчаявшись, Генри Форд II передал участникам группы вожжи правления. Они ничего не смыслили в военном деле, когда помогли выиграть войну, и были столь же невежественны в производстве автомобилей. Тем не менее «вундеркиндам» удалось изменить деятельность компании к лучшему.
Макнамара быстро поднялся по служебной лестнице, показывая точки данных по каждой ситуации. Задерганные руководители завода предоставляли все числа, которые он требовал, будь они правильными или нет. Когда вышел указ, предписывающий до начала производства новой модели израсходовать все имеющиеся детали старой, руководители линейных подразделений с раздражением просто сбрасывали лишние части в ближайшую реку. Руководство в штаб-квартире Ford одобрительно кивнуло, получив от заводских мастеров цифры, подтверждающие, что распоряжение было выполнено. А на заводе стали шутить, что теперь можно ходить по воде — из нее торчали ржавые части автомобилей 1950 и 1951 годов.[149]
Макнамара был воплощением типичного руководителя середины ХХ века — рационального управленца, который полагался на числа, а не настроения и мог применить свои навыки для количественного измерения любой заинтересовавшей его отрасли. В 1960 году он был назначен президентом Ford и занимал эту должность всего несколько недель, прежде чем президент Кеннеди назначил его министром обороны.
Когда обострился вьетнамский конфликт и США направили дополнительные войска, стало ясно, что это война характеров, а не территорий. Стратегия Америки заключалась в том, чтобы усадить Вьетконг[150] за стол переговоров. По этой причине военные успехи измерялись количеством убитых врагов. Эти данные публиковались в газетах и использовались как аргумент сторонниками войны, а для критиков служили доказательством их безнравственности. Подсчет убитых стал точкой данных, определившей новую эпоху.