Да, именно так, решения сами по себе без дата-стюардов не работают, то есть нельзя автоматизировать всеми возможными средствами вокруг все возможные ошибки.
Самыми эффективными считаются гибридные подходы. Они объединяют первые подходы с заранее невозможным вводом несуществующих и невозможных данных и с определенным допущением свободны со стороны пользователя ввести все, что он считает правильным. Пример с почтовыми индексами это наглядно отражает. В базах данных они по-прежнему некорректные, поэтому пользователя просят дополнительно в свободной форме ввести его.
Первый подход называется «децентрализованным» контролем качества данных[140], а второй, когда задаются значения, называется «централизованным»[141].
Домен «Клиенты» вся информация, которая касается наших клиентов: их ФИО, дата рождения, контактные данные, сегменты, в которые определил их маркетинг, выводы, которые сделал комплаенс, и так далее. Все это будет внутри домена «Клиенты».
Для управления качеством данных в этом домене используется специальное решение CDI[142], задача которого посредством специальной сложной логики уметь сопоставлять различный образцы карточек клиентов, выделять похожих и указывать на это дата-стюарду.
Как было в случае «склейки» меня и моего брата в банковских сервисах, такое решение должно было выявить ошибку и показать дата-стюарду, что две карточки клиентов с одинаковой фамилией, одинаковым отчеством и одинаковой датой рождения склеились, но на самом деле это разные клиенты, так как у них разные имена и паспортные данные.
Правила в CDI задает и проверяет никто иной как инженер данных. Надеюсь, теперь стало понятно почему эти ребята тоже крайне важны.
Как работает CDI?
Он превращает информацию каждого экземпляра карточки клиента в сложный код посредством определенной логики и сравнивает их между собой. Например, внутри банка может такое быть, что Благирев Алексей Павлович был заведен девять раз в различных системах, и данные, естественно, неоднородно заполнены между всеми этими системами.
Где-то нет даты рождения, где-то нет полных паспортных данных, где-то нет адреса и много чего другого.
CDI объединяет все эти образцы вместе и создает свой собственный уникальный образец, который уже включает в себя все заполненные параметры из различных источников. Этот конечный образец называется «золотая запись», его можно уже передавать в системы и использовать.
CDI позволяет организовать полноценный промежуточный слой работы с клиентскими данными, а на него уже можно «надеть» или подключить все основные клиентские сервисы через CRM.
Но встает вопрос как быть уверенным, что система взяла нужный образец и вытащила нужную дату рождения для этого образца? Здесь как раз снова появляются инженеры данных, которые определяют допустимые критерии (веса) по тем или иным источникам данных, полям и так далее. В определении весов участвует как интуиция, так и статистика. Сколько существует однофамильцев, которые родились со мной в один день? Инженеры знают ответ. Ну или должны знать.
Домен «Справочники» тут нужно разобраться, какие из доступных классификаторов внутри организации являются ключевыми, то есть такими, которыми пользуются все департаменты. Эти классификаторы можно назвать глобальными. Классификатор это список допустимых значений названия офисов, список продуктов, список сегментов и так далее.
Домен «Справочники» тут нужно разобраться, какие из доступных классификаторов внутри организации являются ключевыми, то есть такими, которыми пользуются все департаменты. Эти классификаторы можно назвать глобальными. Классификатор это список допустимых значений названия офисов, список продуктов, список сегментов и так далее.
В качестве технического решения используется специальное средство RDM[143] или по-русски «НСИ»[144], которое не просто хранит правильный список значений и его распространяет, но и имеет встроенный механизм управления изменениями этих значений. Этот механизм допускает ввод новых значений только от владельцев данных.
Да именно так, появляются владельцы данных, которые отвечают за корректность того или иного справочника.
Владельцы могут назначаться на конкретный параметр в справочнике, а сам справочник может быть представлен не просто списком, а довольно сложной иерархией (отделения складываются в филиалы, филиалы складываются в организацию).
Рассмотрим пример со справочником банковских офисов. У него должен быть определен владелец, который отвечает за качество значений всех офисов. Должна быть процедура заведения нового значения в справочник.
Например, нам нужно поставить в банковский офис пандус, чтобы люди с ограниченными возможностями или дама с ребенком в коляске могли зайти в офис. Но так, чтобы дама сразу знала какой из офисов оборудован пандусом, а какой нет. Для этого руководителя офиса можно сделать владельцем данных одного параметра в справочнике банковских офисов «Есть пандус».
Руководитель банковского офиса, который непосредственно находится на месте будет отмечать галочку «Да»/Нет», если в офисе есть пандус, а система уже выведет эту информацию на сайт или в мобильное приложение, чтобы конечный пользователь смог выбрать ближайший к нему офис и без проблем заехать в него.
Домен «Продукт» самый сложный на мой взгляд домен, его цель управлять жизненным циклом продукта внутри организации. От момента его создания, до момента его снятия с производства или с продаж. В розничном бизнесе и банках такие IT-платформы, которые управляют качеством данных по продукту называются PIM[145]. В первую очередь, это управление каталогом продуктов и характеристиками каждого из продуктов, сбор статистики и определение базовой себестоимости услуг и сервисов внутри каждого конкретного продукта. На производствах такие платформы более комплексные, так как там необходимо уже интегрировать много различных источников (3D схемы из CAD решений и другие), они называются PLM[146]. Они содержат информацию об изделии: 3D схему, технологическую карту о том, как изделие изготовлено, технологический паспорт и инструкцию по ремонту, то есть как изделие необходимо обслуживать.
На практике очень мало результативных внедрений таких технологий, потому что они затрагивают множество процессов в организации и являются критерием зрелости компании в работе с данными.
Начинать с домена «Продукт» я не рекомендую, потому что домены «Клиент» и «Справочники» являются гигиеническим минимумом в организации. Если компания решилась всерьез заняться качеством данных, переход к «Продукту» будет наиболее эффективен, когда организация освоит не только сами инструменты RDM или CDI, но и запустит соответствующие службы из дата-стюардов и дата-инженеров.
Глава 7
Не Big Data единой: платформы и экосистемы
PaaS и платформы
Платформа это бизнес-модель, которая позволяет нескольким участникам (производителям и потребителям) подключаться к ней, взаимодействовать друг с другом, создавать и обменивать стоимость[147].
Примеры успешных компаний, реализовавших платформенную модель Alibaba, Amazon и Facebook.
При работе с цифровым маркетингом возникает вопрос: как сделать так, чтобы предложение максимально соответствовало потребностям клиента? Продать случайному человеку случайный товар из ассортимента гипермаркета сложно. Это как стрелять в небо. Но если мы знаем, что человеку необходимо или понадобится в ближайшем будущем, шансы на успешную продажу значительно вырастают.
Например, продать автомобилисту зимой после снегопада новую щетку для снега труда не составит. Но как узнать, у кого есть машина, а кто из владельцев автомобилей давно не покупал новую щетку?
Где взять такие данные? Каким образом их обработать?
На помощь приходят технологии сбора и анализа Больших данных.
А происходит это так.
Любое действие в Интернете оставляет в сети след. У каждого пользователя (на самом деле у браузера пользователя) есть свой уникальный идентификатор cookie. Он позволяет отслеживать действия пользователя на сайте (или нескольких) в течение ограниченного количества времени. Затем идентификатор меняется.
Если пользователь находится на сайте или заходит на него через разные браузеры, то у него будет много разных идентификаторов. Cookie также могут устанавливать внешние серверы, не имеющие срока окончания. Это позволяет отследить сессии пользователя при повторном появлении в Интернете. При этом, cookie не всегда точно определяют тип пользователя, потому что за компьютером могут находиться попеременно разные люди.
Многие сайты устанавливают специальный код, который называется «пиксель». Назван он так потому, что загружается в виде изображения с минимальными размерами один пиксель на один пиксель. Его задача собирать данные о посетителях сайта, включая их cookie.
Что происходит дальше?
Пиксель передает данные об аудитории в единую платформу. Так, данные с пикселя Facebook, который установлен на сайте, передаются в единую платформу обработки данных Facebook. Платформа определяет, к каким частям (сегментам) аудитории относится клиент, и таким образом запоминает его характеристики.
Сегментировать аудиторию можно по интересам, возрасту и так далее. Для этого используются самые разные методы. Самый простой метод «если то»: если пользователь пришел с сайта о спиннингах, то ему может нравиться рыбалка. Метод сложнее машинное обучение.
Так вот, такие платформы, которые собирают данные с сайта и позволяют обогатить их дополнительной информацией, называются DMP (Data Management Platform или «платформа для управления данными»).
Данные, собранные с пользователей, можно использовать. Например, сделать маркетинговую кампанию точечной, коммуницировать только с подходящей под нее группой пользователей:
предложить существующим клиентам какой-то продукт в дополнение к действующим продуктам.
предложить новым пользователям уникальные условия, чтобы они стали новыми клиентами.
Таким образом, данные, получаемые из DMP через пиксель, направлены на повышение эффективности конверсии, то есть на превращение новых пользователей в клиентов, клиентов в лояльных клиентов и так до бесконечности.
История DMP начинается с ростом популярности цифрового data-driven маркетинга. В нем предложения строятся на основе анализа данных о продажах, клиентах и, часто, не связанных с ними напрямую данных.
Цифровой маркетинг был представлен несколькими уровнями, на каждом из которых работают соответствующие платформы: