Убийственные большие данные. Как математика превратилась в оружие массового поражения - Дегтярева Виктория Анатольевна 3 стр.


Ответы на все эти вопросы смешаны и объединены в математические модели этого спорта. В мире бейсбола существуют параллельные вселенные, и каждая из них представляет собой сложное вероятностное полотно. Они включат в себя каждое измеримое отношение между каждым спортивным компонентом, от уоков и хоум-ранов и до самих игроков. Цель модели – просчитать разные сценарии на каждой развилке и найти оптимальные комбинации. Если Yankees поставят питчера-правшу против сильного отбивающего Майка Траута из Angels, в сравнении с их текущим питчером – кто с большой вероятностью его выбьет? И как это повлияет на общую вероятность победы?

Бейсбол – идеальная база для предиктивного математического моделирования. Как писал Майкл Льюис в своем бестселлере Moneyball (2003)[1], этот спорт привлекал самых увлеченных аналитиков данных на протяжении всей его истории. В прошлом фанаты изучали статистику по оборотным сторонам бейсбольных карточек, анализируя закономерности хоум-ранов Карла Ястржемски или сравнивая общее количество страйк-аутов Роджера Клеменса и Дуайта Гудена. Но начиная с 1980-х годов за дело взялись серьезные специалисты по статистике – они начали разбираться, что же, собственно, означают все эти цифры вместе с огромным количеством новых данных: как именно они конвертируются в победы и как руководство команды может достичь максимального успеха при минимальных вложениях.

Сегодня термин moneyball («денежный мяч») служит условным обозначением любого статистического подхода в областях, где в течение долгого времени господствовала исключительно интуиция. Но пример бейсбола – это пример здорового анализа, который я привела для контраста с более токсичными примерами анализа, которые я считаю действием ОМП и которые появляются во все большем количестве областей нашей жизни. Бейсбольные модели справедливы, в частности, из-за своей прозрачности. Любой человек располагает доступом к статистике и может более или менее понять, как она интерпретируется. Да, конечно, модель одной команды может придавать больше ценности хоум-раннерам, в то время как другие могут их слегка недооценивать из-за того, что сильные отбивающие имеют тенденцию к большому количеству страйк-аутов. Но в любом случае информация о числе хоум-ранов и страйк-аутов доступна для всех интересующихся.

Кроме того, в бейсболе есть статистическая строгость. Его гуру располагают огромным количеством информации, и практически вся она напрямую касается манеры игроков. Более того, эта информация имеет непосредственное отношение к результатам, которые эти гуру пытаются предсказать. Это может показаться очевидным, но, как мы увидим на страницах этой книги, люди, создающие оружие математического поражения, испытывают постоянный дефицит информации как раз о тех типах поведения, которые их больше всего интересуют. В результате они подставляют вместо информации ее подмену (прокси). Они проводят статистические корреляции между чьим-то почтовым кодом или манерой речи и способностью этого человека выплатить кредит или справиться с рабочими обязанностями. Эти корреляции дискриминационны, а некоторые из них и незаконны. Бейсбольные модели по большей части не используют прокси из-за того, что они располагают фактической информацией: мячами, страйками и хитами.

Но самое главное – поток этой информации постоянно обновляется благодаря статистике, собираемой с 12–13 игр ежедневно с апреля по октябрь. Специалисты по статистике могут сравнить результаты этих игр с предсказаниями своих моделей – и увидеть, где они были не правы. Возможно, они предсказали, что реливер-левша пропустит много хитов от бэттеров-правшей – а он в результате их разгромил. В этом случае статистики пытаются подправить свою модель и пристально изучают, как и почему они ошиблись. Возможно, это новый крученый мяч питчера повлиял на их статистику? Или этот питчер лучше играет по вечерам? Все, что они узнают, они снова загрузят в модель, чтобы еще тоньше настроить ее. Именно так работают модели, заслуживающие доверия. Они постоянно взаимодействуют с миром, который они пытаются понять или предсказать. Если условия меняются – модель должна меняться вместе с ними.

Посмотрев сейчас на бейсбольную модель с ее тысячами переменных, вы можете задуматься: как вообще можно сравнивать ее с моделью, использованной для оценки учителей в школах Вашингтона? Первая моделирует спортивную игру в мельчайших деталях и постоянно обновляется. Вторая, при всей ее таинственности, опирается из года в год на результаты горстки тестов. Можно ли вообще называть ее моделью?

Ответ – да. Любая модель, в конце концов, есть не что иное, как абстрактное представление какого-то процесса, будь то бейсбольная игра, цепочка поставщиков нефтяной компании, действия иностранного правительства или посещаемость кинотеатра. Загружена ли она в компьютерную программу или хранится в нашей голове, модель берет наши знания и использует их для того, чтобы предсказать будущие результаты процесса в разных ситуациях. Все мы держим в уме тысячи моделей. Они подсказывают, чего нам ожидать, и руководят нашими действиями.

Вот неформальная модель, которую я использую ежедневно. Будучи мамой троих детей, я сама готовлю еду – мой муж, милейший человек, каждый раз забывает посолить макароны. Каждый вечер, когда я начинаю готовить ужин на всю семью, я внутренне и интуитивно моделирую аппетит каждого домочадца. Я знаю, что один из сыновей любит курицу (но ненавидит гамбургеры), а другой ест только пасту (с дополнительной порцией тертого пармезана). Но я также принимаю во внимание то, что их аппетиты меняются в разные дни – поэтому в мою модель может вкрасться ошибка. В ней всегда будет неизбежный элемент неопределенности.

В мою модель вкладывается информация о моей семье, об ингредиентах, которые у меня уже имеются или мне доступны, а также моей собственной энергии, времени и амбициях. На выходе я получаю решение, что и как мне приготовить. Я оцениваю успех ужина степенью удовлетворенности моей семьи, а также количеством съеденного и тем, насколько еда была здоровой. То, насколько хорошо принимают приготовленную мной еду и сколько ее съедают, позволяет мне обновить свою модель к следующему приготовлению ужина. Обновления и уточнения делают модель динамической – так это называется в статистике.

С гордостью могу сказать, что со временем я научилась очень неплохо готовить для своей семьи. Но представьте, что нам с мужем нужно уехать на неделю, а мне понадобится объяснить свою модель моей маме, чтобы она смогла меня заменить? Или если моя многодетная подруга заинтересовалась моим подходом? В этот момент я попытаюсь придать моей модели какие-то более формальные черты, сделать ее более систематической – и, в каком-то смысле, более математической. Если у меня хватит амбиций, я даже могу создать на ее основе компьютерную программу.

В идеале такая программа учтет все возможные варианты ингредиентов, их питательность и стоимость, а также будет включать полную базу данных о вкусах моей семьи, все любимые и нелюбимые блюда и продукты моих домочадцев. Однако мне будет не так уж просто взять и извлечь всю эту информацию из собственной головы. Да, у меня полно воспоминаний о том, как кто-то попросил добавку спаржи или заявил, что терпеть не может стручковую фасоль, но эти воспоминания перемешаны – мне будет сложно свести их в один список.

Лучшим решением станет доработка модели с течением времени – ежедневный ввод информации о том, что я купила и приготовила, и какой отклик от каждого члена семьи получила. Я смогу также задавать те или иные параметры и ограничения. Я могу ограничить по сезону фрукты и овощи, зато раздать определенное количество печенья «Поп-тартс», чтобы предотвратить открытый бунт. Можно ввести и другие параметры, запомнить, кто больше любит мясо, кто – хлеб и пасту, кто пьет много молока, а кто настаивает, чтобы любой предмет на его тарелке можно было намазать нутеллой.

Если бы я посвятила все свое время этой работе, то за несколько месяцев могла бы получить весьма неплохую модель. Я бы превратила систему приготовления еды, хранящуюся в моей голове, – мою неформальную внутреннюю модель – в формальную внешнюю. В этой модели я бы вынесла наружу, во внешний мир, свои знания и умения. Я бы построила автоматическую версию себя, которой могли бы воспользоваться другие люди даже в мое отсутствие.

Однако в ней всегда бы были ошибки, потому что любые модели всегда представляют собой упрощения. Ни одна модель не может включить в себя всю сложность мира или нюансы человеческого общения. Какая-то важная информация неизбежно оказывается упущенной. Возможно, я бы забыла сообщить своей модели о том, что правило запрета на фастфуд менее строго соблюдается в дни рождения или что сырая морковка пользуется большей популярностью, чем вареная.

Чтобы создать модель, таким образом, мы делаем выбор и решаем, что достаточно важно для включения в нее. Мы упрощаем мир до его игрушечной версии, которая может быть легко понята и из которой мы можем извлечь важные факты и действия. Мы ожидаем от модели выполнения только одной работы и заранее смиряемся с тем, что иногда она будет работать бестолково, с огромными пробелами.

Иногда пробелы не имеют значения. Когда мы запрашиваем у Google Maps маршрут, программа моделирует мир как набор улиц, туннелей и мостов. Она игнорирует здания, потому что те не имеют отношения к задаче. Когда авиационное программное обеспечение управляет самолетом, оно моделирует ветер, скорость самолета и посадочную полосу внизу, но игнорирует улицы, туннели, здания и людей.

Пробелы модели отражают суждения и приоритеты ее создателей. И хотя выбор при составлении Google Maps и авиационного программного обеспечения кажется очевидным, в других случаях он гораздо более проблематичен. Если мы вернемся к примеру вашингтонских школ, их модель подсчета увеличения коэффициента знаний учеников оценивает учителей по большей части на основе данных тестов учеников, игнорируя такие факторы, как вовлеченность учителя в процесс, его работу над определенными навыками, классное руководство и помощь ученикам в их личных и семейных проблемах. Она слишком проста и жертвует точностью и охватом во имя эффективности. При этом, с точки зрения администраторов, она предоставляет эффективное орудие для выявления сотен якобы негодных учителей – даже если существует риск неверной интерпретации профессионализма некоторых из них.

Здесь мы видим, что модели, несмотря на их кажущуюся непредвзятость, отражают заложенные в них цели и идеологию. Когда я исключала возможность поедания печенья за каждым приемом пищи, я переносила свою идеологию на модель еды. Это то, что все мы делаем машинально, не задумываясь. Наши собственные ценности и желания влияют на наш выбор, от данных, которые мы предпочитаем собирать, до вопросов, которые мы задаем. Модели – это мнения, заключенные в математическую форму.

Работает модель или нет – это также вопрос субъективный. В конце концов, ключевой компонент каждой модели, как формальной, так и неформальной, – это ее критерий успеха. Это важный пункт, к которому мы вернемся, когда будем исследовать темный мир ОМП. В каждом случае мы должны спросить не только о том, кто разработал модель, но также чего именно он пытался достичь. Если правительство Северной Кореи возьмется, например, построить модель для моих семейных ужинов, то эта модель, вероятно, будет оптимизирована таким образом, чтобы держать нас чуть выше порога полного истощения, минимизируя при этом затраты и число доступных ингредиентов. Понятно, что наши личные предпочтения при этом будут значить мало или вообще ничего. С другой стороны, если бы эту модель составляли мои дети, то критерием ее успешности стало бы мороженое на завтрак, обед и ужин. Моя собственная модель пытается объединить северокорейское управление ресурсами и благополучие моих детей, а также мои собственные представления о здоровье, удобстве, разнообразии и экологичности. В результате она оказывается более сложной, но все еще отражает мою личную реальность. А модель, построенная в соответствии с сегодняшним днем, завтра будет работать еще хуже. Если ее постоянно не обновлять, она застынет и устареет. Цены меняются, предпочтения растущих детей тоже. Модель, построенная для шестилетки, не сработает для подростка.

То же самое верно и для внутренних моделей. Вы часто можете видеть, как возникают проблемы у дедушек и бабушек, которые навещают давно не виденную ими внучку. Во время предыдущего визита они собрали информацию о том, что она знает и умеет, что вызывает у нее смех, какие телепередачи она любит, – и (подсознательно) построили модель под эту конкретную четырехлетнюю девочку. Однако во время следующей встречи через год они могут столкнуться с неловкой ситуацией из-за того, что их модель устарела. Например, ей больше не нравится Паровозик Томас. Потребуется время, чтобы собрать новую информацию о внучке и перенастроить модель.

Это не означает, что хорошие модели не могут быть простыми. Некоторые очень эффективные модели основываются на единственной переменной. Самая распространенная модель по обнаружению пожара в доме или офисе, например, учитывает единственный, зато непосредственно имеющий отношение к проблеме фактор – наличие дыма. Обычно этого достаточно. Но создатели моделей сталкиваются с проблемами – или сталкивают нас с этими проблемами, – когда они проецируют такие простые модели, как пожарная сигнализация, на людей.

Расизм на индивидуальном уровне может рассматриваться как предиктивная модель, распространившаяся в сознании миллиардов людей по всему миру. Она основана на ошибочной, неполной или обобщенной информации. Информация, основанная на опыте или рассказах других людей, указывает на то, что определенные люди плохо себя ведут. Это приводит к упрощенному предсказанию, что все люди той или иной расы будут вести себя таким же образом.

Нет нужды говорить, что расисты не тратят время на то, чтобы собрать надежную информацию и протестировать свои искаженные модели. Как только их модель превращается в убеждение, она становится прошивкой мозга. Она генерирует допущения, однако редко их тестирует, вместо этого подыскивая информацию, которая, как кажется расисту, их подтверждает и подпитывает. Вследствие этого расизм представляется самой неряшливой из предиктивных моделей. Он основан на небрежном сборе информации и ложных корреляциях, он усилен институциональным неравенством и загрязнен предвзятостью подтверждения. Но как это ни странно, расизм действует так же, как многие из видов оружия математического поражения, которые я буду описывать в этой книге.

В 1997 году афроамериканец Дуэйн Бак, признанный виновным в убийстве двух человек, предстал перед судьей округа Харрис, штат Техас. Судья должен был решить, приговорить преступника к смерти или к пожизненному заключению (во втором случае оставалась теоретическая возможность условно-досрочного освобождения). Прокурор настаивал на смертном приговоре, утверждая, что, если Бак когда-нибудь выйдет на свободу, он может убить снова. Адвокат Бака, со своей стороны, пригласил эксперта-психолога Уолтера Кихано, специалиста по рецидивам среди бывших заключенных. В ходе перекрестного допроса Кихано упомянул расовую принадлежность Бака, и прокурор тут же уцепилась за это:

Назад Дальше