Убийственные большие данные. Как математика превратилась в оружие массового поражения - Кэти О\'Нил, читать онлайн бесплатно (полностью) 4 стр.

КОНЕЦ ОЗНАКОМИТЕЛЬНОГО ОТРЫВКА

Ответы на все эти вопросы смешаны и объединены в математические модели этого спорта. В мире бейсбола существуют параллельные вселенные, и каждая из них представляет собой сложное вероятностное полотно. Они включат в себя каждое измеримое отношение между каждым спортивным компонентом, от уоков и хоум-ранов и до самих игроков. Цель модели просчитать разные сценарии на каждой развилке и найти оптимальные комбинации. Если Yankees поставят питчера-правшу против сильного отбивающего Майка Траута из Angels, в сравнении с их текущим питчером кто с большой вероятностью его выбьет? И как это повлияет на общую вероятность победы?

Бейсбол идеальная база для предиктивного математического моделирования. Как писал Майкл Льюис в своем бестселлере Moneyball (2003)[1], этот спорт привлекал самых увлеченных аналитиков данных на протяжении всей его истории. В прошлом фанаты изучали статистику по оборотным сторонам бейсбольных карточек, анализируя закономерности хоум-ранов Карла Ястржемски или сравнивая общее количество страйк-аутов Роджера Клеменса и Дуайта Гудена. Но начиная с 1980-х годов за дело взялись серьезные специалисты по статистике они начали разбираться, что же, собственно, означают все эти цифры вместе с огромным количеством новых данных: как именно они конвертируются в победы и как руководство команды может достичь максимального успеха при минимальных вложениях.

Сегодня термин moneyball («денежный мяч») служит условным обозначением любого статистического подхода в областях, где в течение долгого времени господствовала исключительно интуиция. Но пример бейсбола это пример здорового анализа, который я привела для контраста с более токсичными примерами анализа, которые я считаю действием ОМП и которые появляются во все большем количестве областей нашей жизни. Бейсбольные модели справедливы, в частности, из-за своей прозрачности. Любой человек располагает доступом к статистике и может более или менее понять, как она интерпретируется. Да, конечно, модель одной команды может придавать больше ценности хоум-раннерам, в то время как другие могут их слегка недооценивать из-за того, что сильные отбивающие имеют тенденцию к большому количеству страйк-аутов. Но в любом случае информация о числе хоум-ранов и страйк-аутов доступна для всех интересующихся.

Кроме того, в бейсболе есть статистическая строгость. Его гуру располагают огромным количеством информации, и практически вся она напрямую касается манеры игроков. Более того, эта информация имеет непосредственное отношение к результатам, которые эти гуру пытаются предсказать. Это может показаться очевидным, но, как мы увидим на страницах этой книги, люди, создающие оружие математического поражения, испытывают постоянный дефицит информации как раз о тех типах поведения, которые их больше всего интересуют. В результате они подставляют вместо информации ее подмену (прокси). Они проводят статистические корреляции между чьим-то почтовым кодом или манерой речи и способностью этого человека выплатить кредит или справиться с рабочими обязанностями. Эти корреляции дискриминационны, а некоторые из них и незаконны. Бейсбольные модели по большей части не используют прокси из-за того, что они располагают фактической информацией: мячами, страйками и хитами.

Но самое главное поток этой информации постоянно обновляется благодаря статистике, собираемой с 1213 игр ежедневно с апреля по октябрь. Специалисты по статистике могут сравнить результаты этих игр с предсказаниями своих моделей и увидеть, где они были не правы. Возможно, они предсказали, что реливер-левша пропустит много хитов от бэттеров-правшей а он в результате их разгромил. В этом случае статистики пытаются подправить свою модель и пристально изучают, как и почему они ошиблись. Возможно, это новый крученый мяч питчера повлиял на их статистику? Или этот питчер лучше играет по вечерам? Все, что они узнают, они снова загрузят в модель, чтобы еще тоньше настроить ее. Именно так работают модели, заслуживающие доверия. Они постоянно взаимодействуют с миром, который они пытаются понять или предсказать. Если условия меняются модель должна меняться вместе с ними.

Посмотрев сейчас на бейсбольную модель с ее тысячами переменных, вы можете задуматься: как вообще можно сравнивать ее с моделью, использованной для оценки учителей в школах Вашингтона? Первая моделирует спортивную игру в мельчайших деталях и постоянно обновляется. Вторая, при всей ее таинственности, опирается из года в год на результаты горстки тестов. Можно ли вообще называть ее моделью?

КОНЕЦ ОЗНАКОМИТЕЛЬНОГО ОТРЫВКА

Ответ да. Любая модель, в конце концов, есть не что иное, как абстрактное представление какого-то процесса, будь то бейсбольная игра, цепочка поставщиков нефтяной компании, действия иностранного правительства или посещаемость кинотеатра. Загружена ли она в компьютерную программу или хранится в нашей голове, модель берет наши знания и использует их для того, чтобы предсказать будущие результаты процесса в разных ситуациях. Все мы держим в уме тысячи моделей. Они подсказывают, чего нам ожидать, и руководят нашими действиями.

Вот неформальная модель, которую я использую ежедневно. Будучи мамой троих детей, я сама готовлю еду мой муж, милейший человек, каждый раз забывает посолить макароны. Каждый вечер, когда я начинаю готовить ужин на всю семью, я внутренне и интуитивно моделирую аппетит каждого домочадца. Я знаю, что один из сыновей любит курицу (но ненавидит гамбургеры), а другой ест только пасту (с дополнительной порцией тертого пармезана). Но я также принимаю во внимание то, что их аппетиты меняются в разные дни поэтому в мою модель может вкрасться ошибка. В ней всегда будет неизбежный элемент неопределенности.

В мою модель вкладывается информация о моей семье, об ингредиентах, которые у меня уже имеются или мне доступны, а также моей собственной энергии, времени и амбициях. На выходе я получаю решение, что и как мне приготовить. Я оцениваю успех ужина степенью удовлетворенности моей семьи, а также количеством съеденного и тем, насколько еда была здоровой. То, насколько хорошо принимают приготовленную мной еду и сколько ее съедают, позволяет мне обновить свою модель к следующему приготовлению ужина. Обновления и уточнения делают модель динамической так это называется в статистике.

С гордостью могу сказать, что со временем я научилась очень неплохо готовить для своей семьи. Но представьте, что нам с мужем нужно уехать на неделю, а мне понадобится объяснить свою модель моей маме, чтобы она смогла меня заменить? Или если моя многодетная подруга заинтересовалась моим подходом? В этот момент я попытаюсь придать моей модели какие-то более формальные черты, сделать ее более систематической и, в каком-то смысле, более математической. Если у меня хватит амбиций, я даже могу создать на ее основе компьютерную программу.

В идеале такая программа учтет все возможные варианты ингредиентов, их питательность и стоимость, а также будет включать полную базу данных о вкусах моей семьи, все любимые и нелюбимые блюда и продукты моих домочадцев. Однако мне будет не так уж просто взять и извлечь всю эту информацию из собственной головы. Да, у меня полно воспоминаний о том, как кто-то попросил добавку спаржи или заявил, что терпеть не может стручковую фасоль, но эти воспоминания перемешаны мне будет сложно свести их в один список.

Лучшим решением станет доработка модели с течением времени ежедневный ввод информации о том, что я купила и приготовила, и какой отклик от каждого члена семьи получила. Я смогу также задавать те или иные параметры и ограничения. Я могу ограничить по сезону фрукты и овощи, зато раздать определенное количество печенья «Поп-тартс», чтобы предотвратить открытый бунт. Можно ввести и другие параметры, запомнить, кто больше любит мясо, кто хлеб и пасту, кто пьет много молока, а кто настаивает, чтобы любой предмет на его тарелке можно было намазать нутеллой.

Если бы я посвятила все свое время этой работе, то за несколько месяцев могла бы получить весьма неплохую модель. Я бы превратила систему приготовления еды, хранящуюся в моей голове, мою неформальную внутреннюю модель в формальную внешнюю. В этой модели я бы вынесла наружу, во внешний мир, свои знания и умения. Я бы построила автоматическую версию себя, которой могли бы воспользоваться другие люди даже в мое отсутствие.

Однако в ней всегда бы были ошибки, потому что любые модели всегда представляют собой упрощения. Ни одна модель не может включить в себя всю сложность мира или нюансы человеческого общения. Какая-то важная информация неизбежно оказывается упущенной. Возможно, я бы забыла сообщить своей модели о том, что правило запрета на фастфуд менее строго соблюдается в дни рождения или что сырая морковка пользуется большей популярностью, чем вареная.

Чтобы создать модель, таким образом, мы делаем выбор и решаем, что достаточно важно для включения в нее. Мы упрощаем мир до его игрушечной версии, которая может быть легко понята и из которой мы можем извлечь важные факты и действия. Мы ожидаем от модели выполнения только одной работы и заранее смиряемся с тем, что иногда она будет работать бестолково, с огромными пробелами.

КОНЕЦ ОЗНАКОМИТЕЛЬНОГО ОТРЫВКА

Иногда пробелы не имеют значения. Когда мы запрашиваем у Google Maps маршрут, программа моделирует мир как набор улиц, туннелей и мостов. Она игнорирует здания, потому что те не имеют отношения к задаче. Когда авиационное программное обеспечение управляет самолетом, оно моделирует ветер, скорость самолета и посадочную полосу внизу, но игнорирует улицы, туннели, здания и людей.

Пробелы модели отражают суждения и приоритеты ее создателей. И хотя выбор при составлении Google Maps и авиационного программного обеспечения кажется очевидным, в других случаях он гораздо более проблематичен. Если мы вернемся к примеру вашингтонских школ, их модель подсчета увеличения коэффициента знаний учеников оценивает учителей по большей части на основе данных тестов учеников, игнорируя такие факторы, как вовлеченность учителя в процесс, его работу над определенными навыками, классное руководство и помощь ученикам в их личных и семейных проблемах. Она слишком проста и жертвует точностью и охватом во имя эффективности. При этом, с точки зрения администраторов, она предоставляет эффективное орудие для выявления сотен якобы негодных учителей даже если существует риск неверной интерпретации профессионализма некоторых из них.

Убийственные большие данные. Как математика превратилась в оружие массового поражения - Кэти О\'Нил 4 стр.

Меню