Как вытащить из данных максимум. Навыки аналитики для неспециалистов - Джордан Морроу 24 стр.


Curiosity  любопытство

Первая «С» дата-грамотности  это любопытство. Обычно говорят, что любопытство кошку сгубило, а я говорю  любопытство породило дата-грамотность. Что приходит в голову, когда мы думаем о любопытстве? Я, как отец, в первую очередь вспоминаю о детях. Их любопытство просто безудержно. Они постоянно задают вопросы обо всем на свете. Зачем это им? Они пытаются понять окружающий мир, изучают его. Вырастая, мы теряем любопытство, и это самая настоящая беда. Представьте, что вы сидите за рабочим столом и изучаете данные: часто ли они вызывают у вас любопытство? Увы, мы почти разучились задавать вопросы. Мы видим перед собой данные, усваиваем их и движемся дальше. А если подключить любопытство? Оно открывает множество дверей в мир данных и аналитики.

КОНЕЦ ОЗНАКОМИТЕЛЬНОГО ОТРЫВКА

Первая «С» дата-грамотности  это любопытство. Обычно говорят, что любопытство кошку сгубило, а я говорю  любопытство породило дата-грамотность. Что приходит в голову, когда мы думаем о любопытстве? Я, как отец, в первую очередь вспоминаю о детях. Их любопытство просто безудержно. Они постоянно задают вопросы обо всем на свете. Зачем это им? Они пытаются понять окружающий мир, изучают его. Вырастая, мы теряем любопытство, и это самая настоящая беда. Представьте, что вы сидите за рабочим столом и изучаете данные: часто ли они вызывают у вас любопытство? Увы, мы почти разучились задавать вопросы. Мы видим перед собой данные, усваиваем их и движемся дальше. А если подключить любопытство? Оно открывает множество дверей в мир данных и аналитики.

Согласно определению, любопытство  это «стремление узнать больше о чем-либо»[41].

Это определение сложнее, чем кажется. Давайте начнем с рассмотрения любопытства в свете определения дата-грамотности.

В рамках четырех элементов дата-грамотности «способность читать данные» и «любопытство» связаны, так сказать, родственными узами. Читая данные, то есть изучая их и понимая, что именно они содержат, мы должны испытывать любопытство. А затем можно задавать вопросы, чтобы побольше узнать о представленных нам данных. После чего мы продолжаем чтение, и цикл запускается заново.

Хороший пример чтения данных с целью «побольше узнать»  топ-менеджер, уверенный в своей дата-грамотности. Когда ему приносят отчет или сводку KPI, он читает данные, его любопытство возрастает, и он начинает задавать вопросы сотруднику, который представил данные,  чтобы получить новые или уточнить имеющиеся. Это должно стать нормой не только на уровне топ-менеджмента, но и на всех уровнях организации.

Любопытство ведет нас от чтения данных к работе с данными. Прочитав информацию и поняв ее, мы начинаем работать с данными, чтобы найти еще больше информации и получить некие полезные результаты. А затем  новый цикл. Чтобы наглядно продемонстрировать, как связаны работа с данными и любопытство, вспомним про визуализации. Например, когда мы строим сводки или панели мониторинга, то в зависимости от используемого ПО (Qlik или Tableau) можем использовать различные фильтры, раскрывающиеся списки или вкладки, чтобы продолжать работу с данными. Любопытство позволяет нам взглянуть на таблицу и задуматься о том, что еще она может содержать. Пример такой сводки приведен на рис. 8.1.



Эта таблица  мои тренировки для конкретного забега, 160-километрового ультрамарафона в Лидвилле (штат Колорадо), через сердце Скалистых гор. Любопытство заставляет нас заинтересоваться: почему одни столбики на диаграмме расстояний больше, чем другие? Что означает разница в цвете для разных тренеров? Я люблю одних больше, чем других, или одни тренировки оказались более эффективными, чем другие? Возникает бесконечная череда вопросов. Любопытство подсказывает, что нужно разбить общую визуализацию на части, отфильтровать данные и получить ответы на вопросы  или во всяком случае хотя бы запустить процесс и составить список новых вопросов.

А это уже ведет нас к третьему элементу дата-грамотности, то есть к анализу данных. Давайте взглянем на другой пример визуализации (рис. 8.2): что происходило с реальными ценами на недвижимость и размером комиссионных?

Представьте, что вы агент по недвижимости. Вы хотите узнать тенденции: колебания цен, изменения в комиссионных и т. д. В этом случае у вас тоже возникают вопросы, например: что приводило к росту средних цен в периоды, отмеченные более темным цветом? Также можно посмотреть на средний процент комиссионных. Интересно, он остается неизменным или меняется? У нас на руках есть все данные, и любопытство заставляет нас их анализировать, задавать все новые вопросы, получать новые ответы, принимать верные решения.

Последний элемент  это, конечно, общение на языке данных: еще один кусочек, без которого мозаика не сложится полностью. А эффективная коммуникация невозможна без любопытства. Почему? Потому что оно подстегивает нас задавать вопросы  в том числе и самим себе. Сможет ли та или иная аудитория полноценно воспринять эти данные, если я изложу их вот так? Каковы особенности аудитории, с которой мне предстоит общаться? Долго ли я смогу держать внимание собеседников? Какие статистические данные мне стоит использовать? И т. д. и т. п.

КОНЕЦ ОЗНАКОМИТЕЛЬНОГО ОТРЫВКА

Итак, первую «С» дата-грамотности можно связать со всеми элементами. Далее давайте рассмотрим, какое отношение любопытство имеет к аналитическим методам.

Переход к четырем уровням аналитики не должен быть слишком сложным. Как вы, конечно, помните, эти четыре уровня представляют собой дескриптивные (описательные), диагностические, предиктивные (предсказательные) и прескриптивные (предписывающие) методы анализа. Любопытство должно помогать нам расширять эти уровни и при необходимости переходить с уровня на уровень. Чтобы было понятнее, давайте вернемся к визуализации распространения холеры, которую мы уже рассматривали. Как вы помните, эта визуализация способствовала как успешной борьбе с болезнью, так и развитию журналистики данных. Так при чем же здесь любопытство?




Во-первых, вспомним про описательный анализ и для начала представим себе гипотетический сценарий: допустим, любопытство подтолкнуло Джона Сноу составить визуализацию вспышки холеры. Я прямо вижу, как он сидит и рассуждает: «Где происходит вспышка? Есть ли у нас данные, которые это показывают?» Эти вопросы помогли ему составить прекрасную визуализацию. Мог ли он задавать другие «дескриптивные» аналитические вопросы? Например: «Влияет ли болезнь на одни группы населения больше, чем на другие?» Или: «Есть ли в городе другие районы с похожим распространением болезни?» Возможно, именно это помогло Джону Сноу пойти дальше и придумать решение проблемы.

В сфере четырех уровней аналитики, и в особенности на описательном уровне, нужно отметить ключевую роль визуализации данных:

 она порождается любопытством;

 она порождает еще большее любопытство.

Это любопытство и помогло Джону Сноу разгадать загадку вспышки холеры. В этом случае, как и во многих других, визуализация оказалась прекрасной отправной точкой для принятия очень важных решений. Мы не имеем права недооценивать этот мощнейший инструмент и одну из ключевых составляющих данных и аналитики.

Второй уровень  диагностический. Могу представить, как Джон Сноу продолжает задавать очень серьезные вопросы, также порожденные любопытством. «Почему так мало случаев заболевания на пивоварне?»  мог бы он спросить. Удачный вопрос: возбудитель холеры передается с водой.

С помощью диагностических методов можно выяснить, что рабочие на пивоварне пили не воду, а пиво. Следующий возможный вопрос: «Откуда взялись очаги болезни в определенных районах?» Этот диагностический вопрос  тоже прямое следствие любопытства  отсылает к визуализации и подталкивает к поиску ценных знаний.

Итак, мы видим, что визуализация данных  это не только ответ, сокровище, в которое упирается радуга, но и отправная точка. Визуализация не дает нам ответов на вопросы, которые мог задавать Джон Сноу,  она дает нам отправную точку, и это крайне важно. Благодаря этому мы переходим к причинам, стоящим за результатами дескриптивного анализа. Джон Сноу поставил множество вопросов, анализируя данные. Задав вопросы, мы начинаем копать глубже в поисках ответов. Последний вопрос Джона Сноу мог быть таким: «Почему мы наблюдаем так много случаев холеры вокруг источника воды?» Источником была водоразборная колонка. Так и было обнаружено, что насос на Брод-стрит находился всего в нескольких метрах от открытой выгребной ямы, а вода заражена из-за попавшей в нее грязной пеленки А отсюда мы переходим на третий уровень, к предиктивному анализу.

Предиктивный анализ позволяет нам успешно «препарировать» как диагностический, так и дескриптивный уровни. Мог ли Джон Сноу построить какие-нибудь прогнозы? Описательный анализ, сделанный Джоном, позволяет сделать наблюдения, которые затем приводят к вопросам. Сформулировав эти вопросы, мы ищем возможные ответы (решения) и получаем возможность построить собственные модели. Что произойдет, если убрать источник загрязнения (грязную пеленку) из воды? В нашем случае это существенно помогло. Наше любопытство позволяет строить и другие гипотезы, которые могли бы быть проверены во время вспышки холеры.

Например, мы могли бы предположить, что дело не в пеленке как таковой, а в насосе. Можно было бы попробовать его заменить. В нашем случае это ничего бы не дало, но так устроена итеративная аналитика. Мы пытаемся что-то сделать, получаем результат и продолжаем проверку. Вряд ли нас наняли бы на работу, заяви мы: забудьте про грязную пеленку, давайте просто заменим насос.

КОНЕЦ ОЗНАКОМИТЕЛЬНОГО ОТРЫВКА

Еще один факт, который вызывает любопытство и позволяет выдвинуть гипотезу: работники пивоварни пили пиво и при этом не болели холерой. Мы можем предположить  а что, если бы все жители Брод-стрит пили вместо воды любимый местный напиток? Вспышка холеры пошла бы на спад? По всей вероятности, так бы и случилось, и людям, наверное, понравилось бы такое решение  однако это не помогло бы нам выявить источник проблемы. Мы обнаружили так называемую ложную корреляцию  когда два события кажутся связанными, но на самом деле это не так. Иными словами, корреляция не означает причинно-следственной связи, и путать одно с другим  типичная аналитическая ошибка, которой лучше избегать. В нашем случае предположение, что, если бы люди пили пиво вместо воды, это бы помогло, само по себе верно  но на деле не решает никаких проблем и, возможно, даже приводит к новым. А если бы спрос на алкоголь так вырос, что пивоварне пришлось бы брать воду из той же колонки? Мы бы вернулись к тому, с чего начали.

Назад Дальше