Намного разумнее было бы отменить практику индивидуального управления конфиденциальностью и заменить ее расширенной подотчетностью, которая предъявлялась бы к пользователям данных, повышая их ответственность за свои действия. Компании, работающие с данными, больше не смогли бы приводить в свое оправдание то, что человек разрешил их использовать. Напротив, им пришлось бы оценивать потенциальные опасности, с которыми могут столкнуться люди при вторичном применении их данных. И только убедившись, что уровень угрозы низкий (то есть возможный ущерб ограничен или гарантированно может быть снижен), компании могли бы воплощать в жизнь свои планы. А в случае неправильной оценки угроз или небрежной реализации планов компании можно было бы привлечь к ответственности за нанесенный ущерб. В свою очередь, правила должны предусматривать вторичное использование данных в большинстве случаев без явного согласия.
Приведем наглядный пример. Представьте себе, что профессор Косимицу, токийский эксперт по «задней части», продал противоугонное устройство для автомобиля, которое использует сидячую позу водителя в качестве уникального идентификатора. Предположим, что позже он повторно проанализировал полученную информацию, чтобы спрогнозировать уровень внимательности водителя (сонный, подвыпивший, раздраженный и т. п.) и отправить уведомления другим водителям, находящимся поблизости, во избежание аварий. При нынешних правилах конфиденциальности Косимицу потребовалось бы пройти еще один этап «уведомления и согласия», поскольку он ранее не получал разрешения на подобное применение информации. А с системой подотчетности пользователей данных ему достаточно было бы оценить опасности предполагаемого использования и, если они минимальны, продолжить задуманное, тем самым повышая безопасность дорожного движения.
Логично было бы переложить бремя ответственности с общества на тех, кто обрабатывает данные. Тому есть целый ряд причин. Лица, которые обрабатывают данные, гораздо лучше других знают, что с ними будут делать. Их оценка (или оценка нанятых ими экспертов) позволяет избежать проблем с выявлением конфиденциальных бизнес-стратегий. Возможно, самое главное — то, что эти лица получают большую часть преимуществ вторичного использования данных. Так что вполне справедливо привлекать их к ответственности за свои действия.
Безусловно, правительство тоже играет важную роль. Если пользователи данных произведут неточную оценку или будут действовать вразрез с предполагаемой оценкой, регулирующие органы привлекут их к ответственности путем распоряжений, штрафов и, возможно, даже уголовного преследования. Подотчетность пользователей данных должна иметь рычаги влияния. Регулирующие органы могут ей содействовать, например, определив основные категории допустимых видов применения или таких, для которых достаточно ограниченных мер по обеспечению безопасности. Это позволит стимулировать поиск новых приемов повторного использования данных. Для более рискованных инициатив регулирующие органы составят основные правила, по которым пользователи данных должны оценивать опасности, влияние на отдельных лиц и пути сведения к минимуму возможного ущерба. Цель в том, чтобы получить объективное и точное представление об угрозах конфиденциальности и понять, какие меры нужно предпринять.
Далее, с пользователей данных будет снята юридическая обязанность удалять личную информацию сразу после ее основного целевого использования, как того требует большинство нынешних законов о конфиденциальности. Это важное изменение, поскольку, как мы видели, только выявив скрытую ценность данных, современные коммодоры Мори могут максимально эффективно работать с данными для собственной (и общественной) выгоды. Взамен пользователи данных получат право на более длительное, хоть и не вечное хранение информации. Обществу необходимо уравновесить преимущества повторного использования данных и риски, вызванные их слишком широким разглашением.
Для того чтобы достичь такого равновесия, регулирующие органы, например, назначат срок удаления различных видов личных данных. Сроки повторного использования могут зависеть от неизбежного риска, связанного с данными, а также от ценностей, присущих различным обществам. Одни страны будут более осторожными, чем другие, так же как некоторые виды рассматриваемых данных могут быть более конфиденциальными, чем другие: база данных домашних адресов слепых людей в конкретном городе понадобится специалистам по городскому планированию, специализированным розничным магазинам и самим людям, а домашние адреса лиц, больных ВИЧ/СПИДом, относятся к разряду данных, о которых не всем хотелось бы распространяться.
В рамках такого подхода конфиденциальность личных данных защищается ограничением времени, на протяжении которого они могут храниться и обрабатываться. Кроме того, этот подход устраняет угрозу «постоянной памяти» — риск того, что никто не сможет скрыться от своего прошлого, поскольку цифровые записи всегда можно извлечь.[159] В противном случае наши личные данные повисли бы над нами как дамоклов меч, угрожая рано или поздно пронзить нас личными подробностями или напоминанием о неудачных поступках. Сроки также служили бы для держателей данных стимулом реализовать свой ресурс, пока есть такая возможность. На наш взгляд, это позволило бы достичь лучшего равновесия для эпохи больших данных: компании получили бы право дольше использовать личные данные, взяв на себя ответственность за это, а также обязательство удалить с устройства личные данные спустя определенный период.
В дополнение к этому переходу в управлении — от конфиденциальности по согласию к конфиденциальности через подотчетность — нам нужно найти и ввести в действие новые технические способы обеспечения защиты личных данных. Один из инновационных подходов содержит понятие «дифференциальной конфиденциальности», которая подразумевает намеренное размытие данных, чтобы запрос большого набора данных выдавал не точные результаты, а лишь приблизительные. Такой подход делает процесс связывания определенных точек данных с конкретными людьми трудным и дорогостоящим.[160]
Может показаться, что подобное перемешивание информации способно уничтожить ценные открытия. Но это совсем не обязательно или по крайней мере может служить удачным компромиссом. Эксперты в области политики и технологий отмечают, что Facebook использует дифференциальную конфиденциальность, когда сообщает информацию о своих пользователях потенциальным рекламодателям: полученные значения являются приблизительными и поэтому не могут помочь установить личности отдельных людей. Поиск ряда женщин азиатского происхождения, проживающих в Атланте и интересующихся аштанга-йогой, выдаст результат, например, «около 400», а не постоянное количество. Таким образом, информацию невозможно будет статистически свести к конкретному человеку.[161]
Переход в управлении конфиденциальностью от согласия отдельных лиц к подотчетности пользователей данных является одним из основных и наиболее существенных изменений. Подобный переход необходим и в прогнозировании на основе больших данных, чтобы сохранить свободу человека и его ответственность.
Люди и прогнозирование
Суды привлекают людей к ответственности за совершенные действия. Когда судья оглашает свое беспристрастное решение после справедливого судебного разбирательства, это считается торжеством справедливости. В эпоху больших данных нам придется пересмотреть понятие справедливости, чтобы сохранить понятие «человеческого фактора» — свободы воли, согласно которой люди сами выбирают, как им действовать. Это простое понятие подразумевает, что люди могут и должны нести ответственность за свое поведение, а не склонности.
До появления больших данных эта фундаментальная свобода была очевидной, причем настолько, что вряд ли нуждалась в формулировке. В конце концов, на ней основан принцип работы нашей правовой системы: мы привлекаем людей к ответственности за свои действия, оценивая то, что именно они натворили. С помощью больших данных мы можем спрогнозировать действия человека, и порой достаточно хорошо. Это создает искушение судить о людях не по тому, что они сделали, а по тому, что они сделают, судя по нашим прогнозам.
В эпоху больших данных нам придется расширить свое представление о справедливости и включить меры по обеспечению безопасности человеческого фактора, аналогичные тем, которые существуют для защиты процессуальной справедливости. Без этого само понятие справедливости может быть подорвано.
Учитывая человеческий фактор как обязательное условие, мы гарантируем, что органы государственной власти будут судить о нашем поведении исходя из наших реальных действий, а не анализа больших данных. Таким образом, мы должны нести ответственность перед ними только за совершенные действия, а не статистически прогнозируемые в будущем. А судя о предыдущих действиях, органы государственной власти не должны полагаться исключительно на анализ больших данных. Рассмотрим случай, когда две компании подозреваются в ценовом сговоре. К анализу больших данных вполне приемлемо прибегнуть для выявления возможного сговора, поэтому регулирующие органы могут провести расследование и завести дело с использованием традиционных средств. Но эти компании нельзя признать виновными только потому, что, по прогнозам больших данных, они, вероятно, совершили преступление.
В эпоху больших данных нам придется расширить свое представление о справедливости и включить меры по обеспечению безопасности человеческого фактора, аналогичные тем, которые существуют для защиты процессуальной справедливости. Без этого само понятие справедливости может быть подорвано.
Учитывая человеческий фактор как обязательное условие, мы гарантируем, что органы государственной власти будут судить о нашем поведении исходя из наших реальных действий, а не анализа больших данных. Таким образом, мы должны нести ответственность перед ними только за совершенные действия, а не статистически прогнозируемые в будущем. А судя о предыдущих действиях, органы государственной власти не должны полагаться исключительно на анализ больших данных. Рассмотрим случай, когда две компании подозреваются в ценовом сговоре. К анализу больших данных вполне приемлемо прибегнуть для выявления возможного сговора, поэтому регулирующие органы могут провести расследование и завести дело с использованием традиционных средств. Но эти компании нельзя признать виновными только потому, что, по прогнозам больших данных, они, вероятно, совершили преступление.
Аналогичный принцип должен применяться и вне органов государственной власти, когда компании принимают важные решения о нас: нанять или уволить, предложить ипотеку или отказать в кредитной карте. Если они руководствуются исключительно прогнозами больших данных, необходимо обеспечить определенные меры безопасности. Во-первых, открытость — предоставление данных и алгоритма, лежащих в основе прогноза, который касается конкретного человека. Во-вторых, сертификацию — прохождение сертификации, в ходе которой алгоритм должен быть признан экспертной третьей стороной как обоснованный и достоверный. В-третьих, недоказуемость — определение конкретных путей, с помощью которых человек может опровергнуть прогнозы относительно себя (аналогично традиции в науке раскрывать любые факторы, которые могут подорвать результаты исследования).
Самое главное, гарантия человеческого фактора защищает нас от угрозы «диктатуры данных», когда данным придается больше смысла и значения, чем они заслуживают.
Не менее важно то, что мы защищаем индивидуальную ответственность. Ведь всякий раз, когда общество принимает решение, затрагивающее других, возникает большой соблазн избавить их от ответственности. Общество переходит к управлению рисками, то есть к оценке возможностей и вероятностей потенциальных результатов. При всей видимой объективности данных очень заманчиво звучит идея оградить процесс принятия решений от эмоциональных и личностных факторов, поставив алгоритмы на смену субъективным оценкам судей и оценщиков и формулируя свои решения уже не на языке ответственности, а оперируя категориями более «объективных» рисков и их предотвращения.
Ввиду прогнозов больших данных возникает сильное искушение изолировать людей, которые, судя по прогнозам, склонны к совершению преступлений, и во имя снижения риска регулярно подвергать их тщательным проверкам, даже если они чувствуют (не без оснований), что наказаны без суда и следствия. Предположим, такой алгоритм «охраны правопорядка», основанный на прогнозах, определил, что конкретный подросток в высшей степени склонен к совершению тяжкого преступления в ближайшие пять лет. В итоге по решению властей социальный работник будет ежемесячно наведываться к подростку, чтобы контролировать его и попытаться ему помочь.
Если подросток и его родственники, друзья, учителя или работодатели воспринимают эти визиты как клеймо (что вполне вероятно), то это вмешательство можно оценить как наказание — по сути, штраф за действия, которые никто не совершал. Впрочем, немногим лучше ситуация, если визиты рассматриваются не как наказание, а как простая попытка уменьшить вероятность криминальных событий — так сказать, способ минимизации рисков (в данном случае сводится к минимуму риск совершения преступления, которое подрывает общественную безопасность). Чем чаще привлечение людей к ответственности за свои действия заменяется мероприятиями по снижению рисков, тем больше в обществе снижается ценность идеала индивидуальной ответственности. Государство, основанное на прогнозах, — в первую очередь государство-нянька. Отрицание ответственности человека за свои действия разрушает фундаментальную свободу людей выбирать свое поведение.
Если большинство решений на государственном уровне полагаются на прогнозы и желание снизить риски, наш личный выбор, а значит, и наша личная свобода действий больше не имеют значения. Где нет вины, там нет невиновности. Уступая такому подходу, мы не улучшаем, а скорее обедняем мир.
Основным стержнем управления большими данными является гарантия того, что мы продолжим судить других, принимая во внимание их индивидуальную ответственность, а не «объективно» обрабатывая числа, чтобы определить, являются ли те или иные лица преступниками. Только в таком случае мы будем относиться к ним по-человечески — как к людям, которые имеют свободу выбора своих действий и право быть судимыми за них. Это не что иное, как последствие наступления эпохи больших данных для нынешней презумпции невиновности.
Вскрытие «черного ящика»
Современные компьютерные системы принимают решения на основе явно запрограммированных правил, которым они должны следовать. Таким образом, если что-то пошло не так, а это неизбежно случается, мы можем вернуться и выяснить, почему компьютер принял то или иное решение. («Почему система автопилота подняла самолет на пять градусов выше, когда внешний датчик определил внезапное повышение влажности?») Сегодня компьютерный код можно открыть и проверить, а основания для решений системы независимо от их сложности — сделать понятными хотя бы для тех, кто разбирается в коде.
При использовании анализа больших данных отследить это станет гораздо сложнее. Основа прогнозов алгоритма зачастую может быть непосильной для человеческого понимания.
Когда компьютеры были явно запрограммированы следовать набору инструкций, как это было с одной из первых программ компании IBM для перевода с русского на английский (1954 год), человеку было легко понять, почему одно слово заменялось другим. Когда компания Google объединяет миллиарды страниц переводов, чтобы судить о том, почему английское слово light выводится на французском как lumière, а не léger (имеется в виду яркость, а не отсутствие тяжести), невозможно точно объяснить причину выбора: основа прогнозирования влечет за собой огромные объемы данных и обширные статистические вычисления.
Масштабы работы с большими данными выйдут далеко за рамки привычного для нас понимания. Так, корреляция, определенная компанией Google между несколькими условиями поиска и гриппом, стала результатом проверки 450 миллионов математических моделей. С другой стороны, Синтия Рудин первоначально разработала 106 прогностических факторов того, что канализационный люк может загореться, и сумела объяснить менеджерам компании Con Edison, почему ее программа выстроила места проверки именно в таком приоритетном порядке. «Объясняемость», как говорят в кругах исследования искусственного интеллекта, имеет большое значение для нас, смертных, которые, как правило, хотят знать не только факты, но и их причину. А что если бы вместо 106 прогностических факторов система автоматически создала 601, подавляющее большинство из которых имеют очень низкий вес, но вместе взятые повышают точность модели? Основа для любого прогноза была бы невообразимо сложной. Что тогда Синтия сказала бы руководителям, чтобы убедить их перераспределить свой скудный бюджет?
В таких случаях мы видим риск того, что прогнозы больших данных, а также алгоритмы и наборы данных, стоящие за ними, станут «черными ящиками», которые не дают ни малейшей прозрачности, подотчетности, прослеживаемости или уверенности. Для того чтобы предотвратить это, необходимы отслеживание и прозрачность больших данных, а также новые виды специальных знаний и учреждения, которые бы ими занимались. Эти новые игроки окажут поддержку в многочисленных областях, где общество должно внимательно изучить прогнозы и дать возможность пострадавшим требовать возмещения.
В обществе такое происходило и раньше, когда при резком увеличении сложности и специализации определенной области возникала острая необходимость в специалистах для управления новыми техническими средствами. Профессии, связанные с юриспруденцией, медициной, бухгалтерским учетом и инженерией, подверглись таким преобразованиям более ста лет назад. Не так давно появились консультанты по компьютерной безопасности и конфиденциальности. Они следят за тем, чтобы деятельность компании соответствовала передовой практике, определяемой такими органами, как Международная организация по стандартизации (созданная ввиду возникшей необходимости в разработке правил в этой области).