Только по модели Вы можете описать, измерить и прогнозировать поведение / развитие какого-то события или объекта. О важности моделей поговорим отдельно в следующей главе.
Модель
Раздел обязателен к прочтению, даже тем, кому он кажется философским и далеким от аналитики.
Под моделью не имеются ввиду статистические алгоритмы и методы обработки данных.
Словом «модель» обозначается некое представление исследуемого объекта, процесса, явления.
Модель – это набор увязанных между собой предположений и понятий, выстраивающий определенный взгляд на объективную реальность.
На рис. 3 изображены несколько наиболее известных моделей – Солнечная система, ДНК, молекула…
Рис. 3. Несколько наиболее известных моделей
Например, элементы ДНК – пары нуклеотидов имеют 4 компонента АТГЦ (аденин, тимин, гуанин и цитозин), которые имеют взаимосвязь А с Т и Г с Ц.
Конечно же, модель строится на основании ограниченного множества известных нам данных (элементов, компонентов, свойств и взаимосвязей) об оригинале (реальном объекте объективной реальности).
Самим оригиналом (объектом объективной реальности) модель не является и на объективную реальность (окружающий мир, явление, протекающие процессы и т.д.) она никоим образом не влияет.
Зато она влияет на наше понимание и отношение к этой реальности.
Только модель любого объекта позволяет нам:
· формально его описать
· делать измерения и интерпретацию полученных результатов
· спрогнозировать его поведение / развитие в будущем
· а также понять его историю в прошлом.
Кроме того, модель позволяет постоянно обучаться, уточнять и добавлять взаимосвязи между ее элементами и компонентами – и, возможно даже, накопленные знания со временем изменят само наше представление о модели. Схематически это все изображено на рис. 4.
Рис. 4. Динамика взаимосвязей модели и реальности
Вспомните, как развивались представления (модели) о Земле по мере накопления знаний и установления новых взаимосвязей: от плоскости на китах и черепахах до Земли-центра и до того, что она крутится вокруг Солнца (рис. 5).
Рис. 5. Изменение представлений о модели Земли по мере накопления данных и знаний
С моей т.з. наличие некой общей модели особенно важно для социальных, экономических и бизнес-дисциплин, где представление о реальности (модель) на порядок важнее чем для той же биологии, геологии, физики, астрономии и т.д., базирующихся на фундаментальных естественных законах.
А люди часто брезгуют моделями, считая их уделом ученых-теоретиков, отдавая предпочтение инструментам / методам… Но эффективность применения инструмента крайне зависит от того, для чего и применительно к какой реальности (объекту, событию, процессу и т.д.) мы его используем.
Я сам не раз наблюдал как менеджеры, профессионалы и даже ученые использовали аналитический инструментарий для прогнозов, но без понимания модели результаты этих попыток предсказаний были аналогичны гаданию на картах Таро.
Даже если рассматривать бизнес и организацию, которые являются социально-экономическими системами. Любой бизнес, любая организация внутри себя также может быть представлена простой операционной моделью как набором элементов и компонентов со взаимосвязями (на рис. 6 авторское представление).
Рис. 6. Базовое представление операционной модели предприятия
Если посмотреть шире (рис. 7) – то организация является открытой системой и неразрывно связана с внутренней и внешней средой.
Если посмотреть еще шире, детализируя окружение компании: клиенты, конкуренты, продукт, процессы, структура, культура и сотрудники компании, ее поставщики и вся экономика – все это уже элементы большой бизнес-модели.
Соответственно на базе моделей аналитику можно очень успешно применять в бизнесе для принятия более взвешенных бизнес-решений, особенно в условиях неопределенности.
Рис. 7. Связь операционной модели с внешней и внутренней средой
Модель – одна из важнейших вещей в аналитике. Именно модель исследуемого объекта / явления / процесса позволяет правильно осуществить анализ: от того какие данные собирать и до того как правильно интерпретировать полученные данные.
Интуиция или аналитика?
Среди людей есть те, кто верит цифрам, а есть те, кто полагается на «чуйку» и интуицию. И это также выражено в бизнесе и менеджменте.
Многие полагают, что достаточно только чутья, бизнес-интуиции и имеющегося опыта – и приводят в пример ряд успешных проектов или решений, принятых вопреки статистике, исследованиям и аналитике.
Например, некоторые приводят Генри Форда, который когда-то сказал, что если бы он полагался на исследование мнений клиентов, то ему бы пришлось заниматься выведением более быстрых пород лошадей, а не автомобилями.
Лукавят, потому что с одной стороны речь тут о технологии, а с другой стороны Г. Форд на самом деле никогда не брезговал аналитикой в управлении предприятием.
Более того, только аналитика позволяет накапливать знания, наращивать и объяснять опыт, усиливать практическую интуицию, а в самом идеальном варианте – возвести к понимаю неких концептуальных моделей.
Я говорю об интуиции и опыте в связке, потому что для меня интуиция – не что иное как «свернутый опыт» человека. Например, говорят, что опытный механик «по звуку машины» может определить проблемы. На самом деле он улавливает ряд мельчайших моментов (данных) в работе авто, но просто уже делает их интерпретацию на таком уровне автоматизма, что не способен объяснить на что именно он обращал внимание, когда поставил «точный диагноз».
Дискуссия о том, что важнее – опыт / интуиция или аналитика несостоятельна в принципе. Вообще ИЛИ здесь неуместно – более целесообразно использовать И.
Ведь сама по себе ни статистическая информация, ни ее анализ, ни обнаруженные статистические значимые взаимосвязи действительно не дают автоматических ответов на вопросы – поэтому модель, интуиция, размышления и воображение (творческий подход) имеют очень большое значение.
Схематически дополняемость аналитики и опыта друг-другом можно представить так (рис. 8):
Рис. 8. Дополняемость опыта и интуиции аналитикой
Немного объяснений к картинке. Сначала мы снимаем / регистрируем / собираем / получаем из реальности некие данные (причем данные в широком смысле слова и в любом виде).
Далее данные превращаются в знания, которые потом объединяются какими-то связями (вот это событие произошло потому, что было вот то-то и то-то) на основании нашего взаимодействия с реальностью. Знаниями и опытом мы уже можем делиться с другими.
Аналитика может нам помочь уточнить наши взаимосвязи: как опровергнуть их наличие в реальности, так и обрисовать скрытые взаимосвязи, которых мы сами не замечали. Это формирует более целостную картину.
В итоге при взаимодействии данных, знаний, опыта и аналитической проверки у нас может родиться некое концептуальное представление реальности (какого-то объекта, процесса, явления, случая и т.д.) – модель.
Это не сама реальность – это только ее модель, наше представление о ней. Но на базе этой модели мы уже можем более эффективно обмениваться пониманием реальности с другими людьми, а также постоянно его уточнять, приращивая новые знания и устраняя пробелы.
Есть еще, конечно, креативная отсебятина (кстати, очень часто встречаемая в менеджменте, социально-экономических и гуманитарных направлениях). Когда человек что-то увидел, чего-то нахватался – и из этого породил в голове какую-то ерунду и, уверовав в нее, обозвал некой моделью (рис. 9).
Рис. 9. Модели без опыта и аналитики зачастую имеют очень отдаленные связи с реальностью
Иногда, конечно, бывает, что из такого креатива рождаются ± верные модели. Но они все равно проверяются только опытом, аналитикой и самой реальностью.
Какая лучшая программа для анализа данных?
Существует ряд программ для анализа данных. От всем уже привычного Excel, до коммерческих продуктов типа SPSS, Statistica, OCA и вплоть до отдельного языка программирования R, созданного специально под аналитику. Есть и бесплатные аналоги дорогостоящего коммерческого программного обеспечения – например, программа PSPP как аналог SPSS.
В интернете есть ряд официальных инструкций, курсов, книг и самоучителей по той или иной аналитической программной среде (какие кнопки нажимать, где находится та или иная функция, где смотреть вывод результатов и т.д.).
Но главное – понимать, что все эти программы не заменители «головы» аналитика.
Это всего лишь инструментарий. Но, невзирая вроде на эту понятную истину, постоянно разворачиваются баталии на тему «какая программа лучше». Всегда хочется спросить о критерии «лучшести» – ведь каждая программа имеет свои плюсы и минусы, возможности и ограничения.
Решение об использовании той или иной программной среды – это на самом деле исключительно вопрос профессиональных и личных предпочтений.
Я, например, в своей практике использую несколько инструментов: подавляющая часть того, что я делаю, сделана в SPSS, ОСА и Excel.
SPSS и ОСА – поскольку привык ими пользоваться. Excel – потому, что удобен для бизнеса и его может открыть, просмотреть и отследить логику формул любой бизнес-пользователь.
Для некоторых задач использую R. Но с языков программирования я бы не рекомендовал начинать не-техническим профессионалам. Это дольше, сложнее, да и вряд ли Вы в своей работе столкнетесь с настолько емкими задачами, чтобы не решить их более простым способом.
Потому, что использовать – больше будет зависеть от того, что Вы решите и осилите освоить. Однозначно в бизнесе (за исключением, если Вы профессиональный аналитик и это Ваша ежедневная работа) самым ходовым инструментом является Excel. Бизнес – это клеточки Excel.
Потому и в данной книге вначале будет показана реализация описательных статистик в Excel, чтобы Вы могли применять эти навыки в знакомом офисном приложении. Но по мере усложнения методов и уровня аналитики мы перейдем на PSPP (аналог-заменитель SPSS).
При обучении прикладному инструментарию для нас с Вами критерием «лучшести» является простота и привычность. Чтобы читатели тратили время не на изучение программы, а фокусировались на сути решаемых задач.
И мой выбор для начинающих и не-инженерных профессий – однозначно Excel и PSPP. Но не просто читайте разделы и главы, а после прочтения сходу отрабатывайте методы в этих программах на Ваших массивах.
Упоминая Excel, не хочу сформировать неправильные ожидания к книге, потому сделаю ударение: в книге не будет обучения базовым навыкам работы с Excel. Изложение книги предполагает, что читатель уже на минимальном базовом уровне знаком с Excel.
Очень краткие итоги раздела
Что я хотел, чтобы читатель вынес из раздела:
1. Никогда не ставьте ИЛИ между аналитикой и интуицией. Всегда И. Не умаляйте роль творчества и случайностей.
2. Пять особенностей социально-экономической реальности:
· Изменчивость
· Редкость нормального распределения
· Репрезентативность выборки
· Пристальное внимание к выбивающимся из общего массива случаям / объектам / наблюдениям
· Важность модели
3. Модель должна предшествовать анализу, чтобы иметь возможность объяснить и проинтерпретировать данные.
4. Разницу между данными, метриками, КПД, дашбордами и собственно аналитикой как поиском скрытых закономерностей и построения прогнозов посредством специального набора инструментов.
5. Неважно какой программный продукт / инструмент Вы используете – используйте то, что знаете. Программы / инструменты дополняют и повышают эффективность, но не заменяют человека.
ВВЕДЕНИЕ В СТАТИСТИЧЕСКИЙ АНАЛИЗ
О статистическом анализе
Нас повсюду окружают данные. В соцсетях, в магазинах, рекламе, метро… даже в авиалайнере. Весь мир – это цифры.
Нам может казаться, что собирая данные (при чем все больше и больше), мы контролируем большое количество важных вещей и держим ситуацию под контролем.
Но на самом деле важно уметь отбирать именно те данные, которые помогают понять ситуацию и принять решения, даже располагая неполной информацией. Какие именно данные важны помогает понять модель, о которой мы уже говорили.
С данными помогает работать такая наука как статистика. Именно она позволяет придать понятный вид и смысл огроменным массивам данных, состоящим даже из миллиардов или триллионов значений.
Статистика делится на описательную и аналитическую. Мы в книге рассмотрим оба эти ответвления.
Задача описательной статистики только описать объект, процесс, явление – используя среднее значение, % распределения, количество и т. д.
Аналитическая статистика использует более сложные методы, которые позволяют рассчитать взаимосвязи между переменными, а также понять, являются ли эти взаимосвязи просто случайными совпадениями или реальными закономерностями.
Анализ данных является ключевым этапом, в ходе которого происходит непосредственная проверка соответствия собранной информации нашим моделям явлений, процессов или объектов.
И более того: в ходе анализа формулируются и проверяются / уточняются существующие или рождаются новые модели, отражающие те закономерности, которые мы нашли в собранных данных.
Исследователь, ученый, менеджер или работник выдвигает определенную модель явления / процесса / объекта, демонстрирует соответствие (либо противоречие) данных и содержащихся в них закономерностей этой модели – и только потом может опираться на модель, отвлекаясь уже от самих данных. Нам, к примеру, уже не нужно постоянно опираться на данные, чтобы понимать, что Земля вращается вокруг Солнца.
Именно статистический анализ позволяет нам находить скрытые закономерности, которые дают нам больше понимания о реальности и уточняют как она работает.
Но, прежде чем искать закономерности, надо рассмотреть несколько важных вещей из области статистики – и мы их далее рассмотрим в рамках этого раздела.
Выборка и генеральная совокупность
Реальность обычно представлена невероятно большим количеством случаев / наблюдений / объектов. Людей, жителей, клиентов, компаний, растений или животных и т. д. И вся их популяция представляет собой генеральную совокупность.
Например, если объектом нашего интереса (за кем мы желаем понаблюдать и изучить) являются жители конкретного города, то все они и есть наша генеральная совокупность. Но если объектом интереса были бы, к примеру, только люди трудоспособного возраста (или имеющие право голоса на выборах) в этом городе, то наша генеральная совокупность уменьшилась бы.
При решении отдельных задач вполне легко можно исследовать всю генеральную совокупность.
Например, у Вас есть текущая база подписчиков он-лайн журнала – и необходимо предсказать кто из них с высокой долей вероятности не продлит подписку со следующего года.
Для этого у Вас, по сути, есть доступ к базе данных по всей генеральной совокупности – и Вы можете сделать аналитику, используя данные всей базы. Посмотреть, люди с каким профилем демографии, поведения, предпочитаемых рубрик чтения и т. д. не продлевали подписку в прошлом и, наложив обнаруженные закономерности на существующую базу, получить условно доверительный прогноз кто не продлит ее сейчас.