Убийственные большие данные. Как математика превратилась в оружие массового поражения - Дегтярева Виктория Анатольевна, читать онлайн бесплатно (полностью) 2 стр.

Это подчеркивает еще одну распространенную особенность ОМП: это оружие имеет свойство наказывать бедных. Отчасти это происходит из-за того, что ОМП разработано для того, чтобы оценивать большие массы людей. Оно специализируется на больших числах, и оно дешево. Это часть его привлекательности. К богатым же людям, с другой стороны, зачастую используется индивидуальный подход. В привилегированной юридической фирме или в частном детском саду личные рекомендации и личные встречи будут значить больше и случаться гораздо чаще, чем в сети ресторанов быстрого питания или в испытывающем финансовые трудности городском школьном округе. Мы постоянно видим, что привилегированные слои обслуживаются и анализируются людьми, а массы – машинами.

Неспособность Высоцки найти хоть кого-то, кто мог бы объяснить, почему она получила столь ужасный результат, тоже говорит о многом. Вердикты от ОМП подобны велениям неких алгоритмических богов. Сама модель представляет собой черный ящик, а его содержимое – яростно оберегаемая корпоративная тайна. Это позволяет таким консультантам, как MPR, брать больше денег за свою работу, но также служит и другой цели: считается, что, если людям, которых оценивают, ничего не объяснять, они с меньшей вероятностью будут пытаться обыграть систему. Вместо этого они просто будут усердно работать, следовать правилам и молиться, чтобы модель признала и оценила их усилия. А если детали скрыты, то становится сложнее поставить под сомнение результат или опротестовать его.

Не один год учителя Вашингтона жаловались на произвольные результаты и требовали разглашения принципов подсчета. Им отвечали, что это очень сложный алгоритм, – и такой ответ сам по себе уже отпугивал многих от дальнейших попыток разобраться. К сожалению, математика пугает многих. Но учитель математики Сара Бакс продолжила добиваться правды от администратора округа Джейсона Камраса. После переписки, длившейся несколько месяцев, Камрас предложил Бакс подождать технического доклада, который должен был вот-вот поступить. Бакс ответила: «Как вы можете оценивать людей с помощью процедуры, которую вы сами не в состоянии объяснить?» Но именно такова природа ОМП. Анализ перенаправлен программистам и специалистам по статистике. А они, как правило, предоставляют слово машинам.

При всем при этом Сара Высоцки была хорошо осведомлена о том, что в формуле имели большое значение результаты стандартизированного теста ее учеников. Именно здесь она подозревала наличие ошибки. Прежде чем начать свой последний учебный год в средней школе Макфарланда, она с радостью обнаружила, что ее будущие пятиклассники на удивление хорошо справились с итоговыми тестами четвертого класса. В начальной школе Барнарда, откуда пришли многие ученики Сары, уровень чтения 29 % учащихся был определен как «продвинутый», что в пять раз превышало средний показатель по городскому школьному округу.

Однако, когда начались занятия, выяснилось, что многие из ее учеников с трудом способны прочесть простое предложение. Много позднее журналистские расследования, проведенные газетами The Washington Post и USA Today, выявили высокий уровень исправлений в ответах стандартизированных тестов в 41 школе округа, включая школу Барнарда. Высокий уровень исправленных ответов указывает на большую вероятность подделки результатов. В некоторых школах под подозрение попало до 70 % классов.

Какое отношение это имеет к ОМП? Тут важны два фактора. Во-первых, алгоритмы оценки учителя – мощный инструмент для корректировки поведения. Это, собственно, и есть цель этих алгоритмов, и в школах Вашингтона они олицетворяли собой как кнут, так и пряник. Учителя знали, что, если их ученики плохо напишут тесты, их собственные рабочие места окажутся под угрозой. Это давало учителям сильную мотивацию добиться того, чтобы их ученики нормально справились с тестами, – особенно после того, как на рынок труда обрушилась Великая рецессия. В то же время, если их студенты превзошли бы сверстников, учителя и администрация могли получить бонусы суммой до восьми тысяч долларов. Добавьте эти мощные мотивационные элементы к уликам в деле – большому количеству исправлений и аномально высоким результатам, – и вы получите основания подозревать, что учителя четвероклассников либо из страха, либо из жадности подделали результаты экзаменов своих учеников.

Таким образом, вполне вероятно, что ученики Сары Высоцки начали учебный год с искусственно завышенными результатами. В таком случае результаты их тестов в конце года вполне могли показать, что у них существенно снизился уровень результатов – то есть что учителя пятого класса недостаточно хорошо их обучали. Высоцки убеждена, что именно это с ней и случилось. Это объяснение хорошо укладывалось в наблюдения родителей, коллег и директора, которые в один голос утверждали, что она очень хорошая учительница. Если бы учительницу уволили люди, это можно было бы оспорить. У Сары Высоцки были очень веские основания для апелляции.

Но апеллировать к оружию математического поражения невозможно. Это – часть его пугающей силы. Оно ни к кому не прислушивается и ни перед кем не отступает. Оно глухо не только к лести, угрозам и уговорам, но и к логике, даже когда есть хорошие основания усомниться в информации, которая послужила основной их выводов. Да, если становится очевидно, что автоматическая система выдает настолько неверные результаты, что это бросается в глаза, программисты все-таки доработают алгоритмы. Но по большей части программы изрекают вердикты, не подлежащие обжалованию, а обслуживающие их люди могут только пожимать плечами, словно хотят сказать: «Ну что же тут поделаешь?»

Именно этот ответ Сара Высоцки и получила от школьного округа. Джейсон Камрас позже сообщил Washington Post, что исправления были «подозрительными» и что цифры у ее пятого класса могли быть неверными. Но эти свидетельства не были достаточно убедительными. По его мнению, с Сарой поступили справедливо.

Видите парадокс? Алгоритм обрабатывает массу статистических данных и выдает вероятность того, что определенный человек может быть ненадежным арендатором, сомнительным заемщиком, террористом или плохим учителем. Эта вероятность выражается в результате, который может разрушить чью-то жизнь. Однако когда человек высказывает претензии к этому результату, то «подозрительные» свидетельства, могущие его оспорить, просто не принимаются во внимание. Дело должно быть железобетонным. Люди – жертвы ОМП, как мы увидим снова и снова, должны предоставить гораздо более четкие свидетельства, чем сами алгоритмы.

Пережив шок от увольнения, Сара Высоцки оставалась без работы всего несколько дней. Ее окружала масса людей, включая ее бывшего директора, которые готовы были поручиться за нее как за отличного учителя, и в результате она быстро нашла работу в школе соседнего округа, в Северной Вирджинии. Благодаря спорной модели бедная школа потеряла хорошего учителя, а богатая школа, которая не увольняет людей на основании результатов ученических тестов, этого хорошего учителя приобрела.

После ипотечного кризиса я остро осознала, насколько повсеместно распространено ОМП в банковском деле, и ту опасность, которую оно предоставляет для нашей экономики. В начале 2011 года я ушла из хедж-фонда. Позже, переименовав себя в специалиста по анализу данных, я присоединилась к стартапу в области онлайн-торговли. С этой выигрышной позиции мне было прекрасно видно, как легионы других видов ОМП ввинчиваются во все области промышленности и многие из них при этом усиливают неравенство и наказывают бедных. Оружие математического поражения находилось в самом сердце бурно развивающейся экономики данных.

Чтобы распространить информацию об ОМП, я завела блог под названием MathBabe. Моей целью была мобилизация коллег-математиков на борьбу с небрежным использованием статистики и основанных на предвзятости моделей, которые создавали свои собственные токсичные петли обратной связи. Специалисты по анализу данных, которых заинтересовал мой блог, сообщали мне о распространении ОМП в новых областях. Но в середине 2011 года, когда в Нижнем Манхэттене развернулось протестное движение «Захвати Уолл-стрит», я поняла, что нам нужно работать с более широкой аудиторией. Тысячи протестующих собрались, чтобы потребовать экономической справедливости и финансовой подотчетности. Однако, когда я услышала интервью с участниками этого движения, я обнаружила, что они зачастую не знают о самых основных проблемах, связанных с финансами. Они явно не читали мой блог. (Тут я должна добавить, что необязательно знать все детали системы, чтобы понять, что она неработоспособна.)

Я поняла, что могу либо критиковать их, либо к ним присоединиться, и выбрала второе. Вскоре я уже проводила еженедельные встречи Альтернативной банковской группы при Колумбийском университете, где мы обсуждали финансовую реформу. В ходе этого процесса я осознала, что обе мои вылазки за пределы академического мира – одна в финансы и другая в науку данных – обеспечили меня потрясающим доступом к технологиям и ОМП, приводимому в действие культурой.

Плохо продуманные математические модели в наши дни управляют экономикой везде, от рекламных кампаний до тюрем. Это ОМП обладает многими характеристиками, которые похожи на модель подсчета прогресса учеников, чуть не пустившую под откос карьеру Сары Высоцки в вашингтонских школах. Они непрозрачны, не подвергаются вопросам и сомнениям, массово распространены и занимаются тем, что сортируют, вычленяют и «оптимизируют» миллионы людей. Путая свои выводы с объективной реальностью, большинство из них создает губительные петли обратной связи ОМП.

Но есть одно важное различие между моделью подсчета увеличения коэффициента знаний учеников, созданной школьным округом, и, скажем, разновидностью оружия математического поражения, подсчитывающей перспективы выдачи микрокредитов. Они имеют разную отдачу. Для школьного округа отдача – что-то вроде политической валюты: ощущение, что задачи решаются. Но для бизнеса валюта используется самая стандартная: деньги. Для многих предприятий, применяющих эти грубые алгоритмы, притекающие к ним денежные потоки дают иллюзию доказательства того, что их модели работают. Посмотрите на ситуацию их глазами – и она для вас будет иметь смысл. Когда такие предприятия строят статистические системы, чтобы найти клиентов или манипулировать отчаявшимися заемщиками, растущий доход демонстрирует им, что они на правильном пути. Программное обеспечение хорошо делает свою работу. Проблема заключается в том, что прибыль выступает как мерило качества моделей. Мы увидим, как это опасное заблуждение будет проявляться снова и снова.

Это происходит из-за того, что специалисты по анализу данных слишком часто теряют из виду людей, для которых вроде бы предназначен этот анализ. Эти специалисты наверняка понимают, что программа, обрабатывающая данные, не может в определенном проценте случаев не дать неправильную оценку, ошибочно поместив того или иного человека в ту или иную социальную группу, что приведет к тому, что он не получит хорошую работу или шанс взять ипотеку на дом своей мечты. Но чаще всего люди, управляющие ОМП, не зацикливаются на этих ошибках. Их обратная связь – это деньги, а рост прибылей – их мотивация. Их системы разработаны так, чтобы захватывать как можно больше данных и оттачивать аналитику, обеспечивая все больший приток денег. Инвесторы, конечно же, радуются своей прибыли и осыпают компании-разработчики ОМП еще большим количеством денег.

А жертвы? Любой специалист по анализу внутренних данных скажет вам, что ни одна статистическая система не может быть идеальной. Жертвы – это сопутствующий риск. И зачастую их признают, как Сару Высоцки, всего лишь расходным материалом. Забудьте о них на минуту, скажут вам, и подумайте обо всех тех людях, которые получили полезные предложения через рекомендации от поисковиков, или нашли любимую музыку на сайте Pandora, или идеальную работу на LinkedIn, или, возможно, встретили любовь всей своей жизни на Match.com. Думайте о впечатляющих масштабах, позабудьте о мелких недостатках.

Большие данные имеют много горячих поклонников, но я к ним не отношусь. Эта книга будет острейшим образом сосредоточена на другом направлении: на том ущербе, который приносит оружие математического поражения, и на несправедливостях, которые оно порождает. Мы исследуем ущерб, который был нанесен людям в критические моменты их жизни: во время поступления в колледж, при попытках взять кредит, при вынесении им приговора в суде, в поисках работы. Все эти жизненно важные рубежи всё в большей и большей степени контролируются тайными моделями, которые произвольно наказывают людей.

Добро пожаловать на темную сторону Больших данных.

Компоненты бомбы: что такое модель?

Стоял жаркий августовский день 1946 года. У Лу Бодро, играющего менеджера команды Cleveland Indians, было отвратительное настроение. В первой из двух игр, намеченных на этот день, Тед Уильямс практически в одиночку уничтожил команду Бодро. Уильямс, возможно лучший хиттер того времени, выбил три хоум-рана и еще довел восемь игроков до домашней базы. В итоге «Индейцы» проиграли со счетом 10:11.

Бодро нужно было что-то предпринять. Поэтому, как только Уильямс вышел на поле во второй игре, игроки «Индейцев» начали быстро перемещаться. Бодро, шорт-стоп, перебежал на место, где обычно стоял второй бейсмен, а второй бейсмен отошел на правый аутфилд, третий бейсмен сдвинулся влево, к месту шорт-стопа. Было очевидно, что Бодро (возможно, эта идея была продиктована отчаянием) полностью изменил расположение своей защиты, чтобы превратить хиты Теда Уильямса в ауты.

Другими словами, Бодро мыслил как специалист по анализу данных. Он проанализировал предварительные данные, по большей части на основе наблюдений: обычно Тед Уильямс делал подачу в правый аутфилд. Затем он предпринял меры – и они сработали. Игроки стали ловить больше мощных лайнеров Уильямса (хотя они по-прежнему ничего не могли сделать с хоум-ранами, пролетающими над их головами).

Если вы сегодня придете на бейсбольную игру высшей лиги, вы увидите, что защита относится практически к каждому игроку противника как к Теду Уильямсу. Если Бодро просто пронаблюдал за тем, куда Уильямс обычно направлял удар, то сейчас менеджеры точно знают, куда каждый игрок направлял удар в течение последней недели, за последний месяц, за всю карьеру, играя против левшей, в ситуации, когда у него было два страйка, и так далее и тому подобное. Используя эту собранную информацию, они могут проанализировать текущую ситуацию и рассчитать расстановку игроков, дающую наибольшую вероятность успеха. Иногда это включает в себя довольно-таки существенные перемещения игроков по полю.

Перенос защиты – лишь часть гораздо более серьезного вопроса: какие шаги могут предпринять бейсбольные команды для максимизации вероятности победы? В поисках ответа на этот вопрос специалисты по бейсбольной статистике изучили каждую переменную, которую смогли количественно измерить, и присвоили ей определенную ценность. Насколько дабл ценнее сингла? Когда, если вообще когда-либо, имеет смысл использовать сэкрифайс-бант для перемещения раннера с первой на вторую базу?

Убийственные большие данные. Как математика превратилась в оружие массового поражения - Дегтярева Виктория Анатольевна 2 стр.

Компоненты бомбы: что такое модель?

Меню