Стоит отметить ряд важных аспектов, которые сегодня являются общими для значительного количества регуляторных юрисдикций (регуляций).
Право на забвение, которое дает европейцам возможность удалять свои личные данные по запросу (во избежание их распространения или передачи третьим лицам).
Право на переносимость данных (right to data portability) является новацией в правилах обработки данных ЕС, введенной GDPR. Данное право заключается в том, что компании обязаны бесплатно предоставлять электронную копию персональных данных другой компании по требованию самого субъекта персональных данных.
GDPR устанавливает высокие требования в отношении формы получения согласия на обработку данных. Согласие человека на обработку его персональных данных должно быть выражено в форме утверждения или в форме четких активных действий пользователя. Согласие на обработку персональных данных будет недействительно, если у пользователя не было выбора или возможности отозвать свое согласие без ущерба для самого себя. Если пользователь дал согласие на обработку своих персональных данных, контроллер должен иметь возможность продемонстрировать это.
GPDR не рекомендует использовать по умолчанию поля о согласии с уже поставленной галочкой или другие методы получения согласия по умолчанию. Согласие также не может быть выражено в виде молчания или бездействия пользователя. Информация о порядке отзыва согласия на обработку персональных данных должна быть размещена таким образом, чтобы пользователь мог легко ее найти.
Техническая инфраструктура
Стратегия выбора технологического стека, сопровождающего реализацию стратегии данных, во многом будет упираться несколько ключевых составляющих:
Техническая инфраструктура
Стратегия выбора технологического стека, сопровождающего реализацию стратегии данных, во многом будет упираться несколько ключевых составляющих:
Total cost of Ownership совокупная стоимость владения технологией. Сюда попадают затраты как на сопровождение, так и на поддержку.
Total cost of Change совокупная стоимость изменений. Внешний мир меняется, поэтому в технологический ландшафт потребуется постоянно вносить изменения для того, чтобы соответствовать требованиям внешней среды.
Total cost per TB совокупная стоимость технологии за один ТБ решения. При проектировании внутренней экосистемы одной из основных единиц цифровой экономики становится МБ, ГБ или ТБ хранения данных.
Выбор решения может подразумевать разделение на:
Программные средства софт, который позволяет обрабатывать или извлекать данные и проделывать с ними различные операции.
Аппаратные средства железяки, оборудование, без которого работа с большими и сложными вычислениями становится сложной и бесполезной.
Программно-аппаратные средства гибридные решения, которые включают в себя помимо оборудования также и софт.
Себестоимость владения технологией в зависимости от типа средств
С точки зрения поведения экономики гибридные решения имеют ряд определенных ограничений при масштабировании стоимости такого решения и приобретении большего количества данных. В отличии от лицензий, ограничение вводят аппаратные средства, себестоимость производства которых зависит от конкретных драйверов затрат, что в свою очередь сложно переложить на драйвер объема данных. Поэтому с точки зрения снижения TCO более целесообразно выбирать так называемые «serverless-решения».
Зачем нужна стратегия данных?
Стратегия позволяет систематизировать усилия организации, прилагаемые для сбора и обработки данных, выделить ключевые события, которые происходят в данных, определить роли и участников и, наконец, поддержать реализацию миссии организации.
Lean цикл данных
Для простоты описания можно выделить несколько ключевых этапов, которые могут развиваться обособленно:
Data Harvesting эффективный сбор данных;
Data Market эффективный поиск и предоставление данных внутри организации;
Data as a Service аналитические сервисы с использованием данных.
Как влияет культура компании на успешность стратегии?
Согласно высказыванию Питера Дрюкера[28], «культура компании съедает ее стратегию на завтрак».
Если в компании ценность использования данных не поддерживается на каждом из уровней управления, то реализация стратегии данных находится под существенным риском.
Скорость роста общемирового объема данных
Большая часть данных, доступных сегодня для исследований и монетизации, была создана или собрана за последние несколько лет, и данные продолжают расти со скоростью 50 000 ГБ/сек[29]. Такие объемы дают определенное конкурентное преимущество при построении новой бизнес-стратегии, но лишь малая часть компаний успела трансформировать свою внутреннюю культуру для эффективной работы с данными на всех уровнях.
В свою очередь, технологии для обработки и хранения данных стали максимально доступными и экономичными. К 2050 году, когда население Земли достигнет 9,6 миллиардов человек, все объекты вокруг будут связаны в единую сеть обмена данными.
Быть успешной компанией, уметь рассчитывать показатели, планировать и ставить задачи стало невозможным без взаимодействия с данными, с учетом того, что в скором времени большая части таких сервисов станет «коммодити»[30]. Чтобы достичь этого, с одной стороны, организации необходимо выровнять единое понимание, что такое данные и какую ценность они создают для конкретной компании. С другой стороны, работа с данными требует скрупулезности и аккуратности. При развитии навыков и компетенций работы с данными, например при машинном обучении, происходит обособление от такой науки как статистика. Возникают постоянные барьеры коммуникаций, сводящие к минимуму возможность успешной кооперации.
Такие барьеры приводят к одной из важнейших проблем в управлении данными департаменты внутри корпораций работают в формате «Silos»[31] с изолированными хранилищами данных, которые возникают естественным образом в крупных организациях. По сути, речь идет о «подстольном» BI-хранилище, которое стоит практически у каждого отдельного департамента, и, как показала моя практика, это явление весьма частое. Такие Silos делают невозможным достижение и создание «Единого хранилища данных».
Silos возникают, когда департаменты конкурируют друг с другом. Важно понимать, что основу такой конкуренции создает внутренняя культура организации, поэтому стимулирование внутренней конкуренции вредит стратегии данных. Можно даже утверждать, что вероятность совместить такие организации, где поддерживается и стимулируется конкуренция со стратегией данных, крайне низкая.
Silos как явление существуют не только внутри организации. Если рассмотреть несколько отраслей, например, производство и банкинг, то здесь данные изолированы и хранятся только внутри производственного контура. Банк с наименьшей вероятностью сможет получить доступ к данным производства, хотя как раз получение данных дает возможность разработки и создания «цифрового двойника» производства и моделирования новых финансовых продуктов с использованием данных, таких как гарантии или производственный овердрафт, без необходимости сбора бумаг или отчетности. Именно поэтому фактор культуры и устранения барьеров коммуникации является одним из ключевым при построении дата-центрированной бизнес-модели.
Пример моей стратегии по управлению качеством данных на основе выделенных доменов (блоков данных)
Ряд экспертов[32] предлагает несколько решений по гармонизации и трансформации культуры организации:
Открытость сотрудников стимулируют делиться данными, высказывать идеи и поощряют за помощь в исследованиях данных других департаментов и за их использование.
Top-down менеджмент напрямую координирует и на своем примере показывает важность совместной работы с данными.
Холократичность сведение всех ключевых заинтересованных лиц в круг влияния по примеру компании Zappos; формирование «плоских» или одноранговых команд для работы над аналитическими сервисами с использованием данных.
Стройте сервисы переход на сервисную модель работы с данными, позволяющий стандартизировать и выравнивать понимание того, как должен выглядеть тот или иной сервис.
Фокусируйтесь на драйверах[33][34] определение драйверов, которые приводят к появлению Data Silos, такие как:
Множество и различие платформенных решений и компетенций когда внутри одной организации существуют одновременно много различных платформ по работе с данными.
Политические борьба за сферы влияния приводит к тому, что информация используется как основной инструмент для разделения влияния.
Неравномерный рост быстрый рост компании или неорганические приобретения различных бизнес групп приводят к тому, что возникают отличные интерпретации того, как использовать данные.
Сфокусированность на вендоре каждый из вендоров имеет внутри своего решения уникальную модель данных. Многие из них строят изолированные экосистемные решения, которые не умеют находить общий язык с решениями других вендоров. Сегодня стандартизированы только интерфейсы без интерпретации.
По версии Digital Impact[35] предлагается, наоборот, рассмотреть ряд нестандартных приемов по трансформации культуры организации:
Предложить сотрудникам делать скетчи с историями про данные. Сотрудники изучают данные и пробуют рассказать историю, для этого организуются регулярные питчи внутри компании в специально отведенное время (так называемые DemoDay).
Построить скульптуру данных, которая будет представлять те или иные данные. Необходимо подумать и сконструировать решение, которое в том числе будет привлекать внимание других сотрудников и поможет впоследствии рассказать историю #datasculpture.
Начать формулировать аргументы с использованием данных во время дискуссии или обсуждения.
Кто владелец стратегии данных?
Анализируя структуру навыков и требований к современному Data Scientist[36][37] (которая, кстати, уже тоже устарела, так как на смену работе с Hadoop пришел Spark для работы с NoSQL БД), можно выделить ряд ключевых ожиданий.
Современный исследователь данных по версии MarketingDistillery
Помимо навыков из области математики или статистики, специалист в обязательном порядке должен обладать навыками, позволяющими ему уметь настраивать среду, загружать и обрабатывать данные и подготавливать датасет к исследованиям.
Современный исследователь данных по версии MarketingDistillery
Помимо навыков из области математики или статистики, специалист в обязательном порядке должен обладать навыками, позволяющими ему уметь настраивать среду, загружать и обрабатывать данные и подготавливать датасет к исследованиям.
Кроме специалиста по исследованиям необходимы специалисты по контролю и качеству данных, бизнес-аналитики, архитекторы данных, разработчики информационных потоков и сервисов и так далее.
При всем обещающем многообразии компетенций и навыков встает открытый вопрос: к кому из бизнес-лидеров должна относится стратегия данных. Один из традиционных взглядов, преобладающий в большинстве компаний, выглядит следующим образом: