Предсказательная аналитика тесно связана с машинным обучением. На самом деле, системы ML часто предоставляют инструменты для аналитики интеллектуального программного обеспечения.
На заре появления Big Data компании исследовали свои данные, чтобы понять, что было в прошлом. После этого они начали использовать свои инструменты для анализа, чтобы определять причины тех или иных событий.
Прогностическая аналитика идет еще дальше. Она предсказывает, что произойдет в будущем, используя анализ Big Data. Число организаций, использующих предсказательную аналитику в 2017 году, не очень большое, всего 29 процентов, согласно опросу 2016 года от PwC.
Тем не менее многие поставщики готовых решений представляют интеллектуальные инструменты для аналитики. И за счет их клиентов количество компаний, использующих предсказательную аналитику, может резко увеличиться.
Большая часть финансовых функций и подразделений также будет заменена алгоритмами и сервисами, позволяющими получать инсайты и ответы на регулярные вопросы со стороны владельцев бизнес-процессов о состоянии дел.
Поменяются и форматы представления данных в сторону стандартных нотаций (например, XBRL).
Сайты компаний будут иметь интерфейсы для аналитических сервисов, которые будут позволять автоматизировать, например, отчетность для инвесторов.
Машинное обучение и технологии ИИ используются для создания приложений. Они, например, анализируют предыдущие действия пользователя, и за счет этого делают персонализированные предложения. Одним из известных примеров являются рекомендательные сервисы, которые сейчас используются множеством приложений для электронной коммерции и развлечений.
Многие компании также включают Big Data-аналитику в свою стратегию безопасности. Данные из логов организаций предоставляют информацию о прошлых попытках атак. Их можно использовать для прогнозирования и предотвращения будущих атак.
В результате, некоторые компании интегрируют свое ПО для обеспечения безопасности и управления событиями с платформами Big Data, такими как Hadoop. Другие обращаются к поставщикам решений по безопасности, чьи продукты включают в себя большие возможности для анализа данных.
Все больше решений IoT
Интернет Вещей тоже вносит вклад в Большие данные. Согласно отчету IDC[151],«31,4 процента опрошенных организаций запустили решения IoT, а 43 процента планируют развернуть их в ближайшие 12 месяцев». Со всеми этими новыми устройствами и приложениями, которые появляются в сети, данных будет еще больше, чем раньше. Многим компаниям потребуются новые технологии и системы для обработки возрастающего потока данных, поступающих из их решений IoT. Большую интеграцию и развитие также получат смежные сервисы, где данные с устройств будут использоваться для предоставления сторонних сервисов, например финансовых, таких как страхование имущества или кредитование под поставку объектов имущества.
Одной из новых технологий, которые могут помочь компаниям справиться с Большими данными IoT, являются вычисления на узлах (машинах), близких к источникам данных.
Это называется Edge Computing (англ. edge «край»). В Edge Computing Big Data-анализ происходит очень близко к устройствам и датчикам IoT, а не в центре обработки данных или облаке. Компаниям это дает существенные преимущества. У них становится меньше данных, передающихся по их сетям. В результате, можно повысить производительность и сэкономить на стоимости облачных вычислений в сети. Это позволяет организациям удалять данные IoT, которые являются ценными в течение ограниченного периода времени, что снижает затраты на хранение и инфраструктуру. Edge Computing также может ускорить процесс анализа, снижая time-to-market для аналитики.
Для IT-специалистов рост Big Data-аналитики, вероятно, будет означать высокий спрос и высокие зарплаты для тех, кто смог быстро набрать опыт по работе с Big Data-технологиями. По данным IDC: «Только в США в 2018 году будет 181000 вакансий, связанных с аналитикой, и в пять раз больше позиций, требующих соответствующих навыков управления и интерпретации данных».
Появился целый новый рынок труда со множеством профессий и специализаций, не имеющий пока четких критериев для отбора и поиска специалистов, за исключением рейтингов Kaggle или участием в тех или иных исследовательских проектах. Большим риском в предстоящем развитии новых профессий по работе с данными является в том числе их оторванность от понимания бизнес-специфики, так что специалисты, которые будут совмещать в себе понимание как IT, так и бизнес-составляющей, будут получать высокие зарплаты.
Существенную роль сыграет постепенное появление CDO (Chief Data Officer) в команде руководства большинства компаний. Если проанализировать публичные профили известных CDO, то большинство из них сегодня пришло к этой роли из бизнеса через трансформацию своей компании, сохранив при этом определенный уровень компенсаций и ожиданий.
Поскольку стоимость найма экспертов возрастает, многие организации будут искать инструменты, которые позволят обычным бизнес-пользователям удовлетворять свои потребности в аналитике данных. Ранее IDC предсказывал, что «инструменты для визуальной работы с данными будут расти в два с половиной раза быстрее, чем рынок бизнес-аналитики (BI). К 2018 году инвестиции в этот инструмент Self-Service конечных пользователей станут обязательными для всех предприятий». Несколько поставщиков уже запустили инструменты для аналитики Больших данных с такими возможностями. Эксперты ожидают, что тенденция продолжится и дальше. IT, скорее всего, будет менее вовлечен в процесс, так как большая аналитика данных относится, в первую очередь, к предметной области, которой занимаются бизнес-пользователи.
Сегодня компаниям нужно все больше знать о своих продуктах и пользователях и, как следствие, успевать адаптироваться к изменяющимся требованиям со стороны рынка.
Даже промышленный сектор стал активно переходить в область использования аналитики и работы данными. Так, промышленная компания по разработке программного обеспечения Uptake быстро достигла капитализации в один миллиард долларов, получив звание единорога. Суть ее предложения помогать промышленным компаниям оптимизировать свой бизнес и продукты на основе инсайтов, полученных из анализа при работе с промышленными данными. Компании удалось построить решения для различных индустрий, начиная от транспорта и добычи, заканчивая использованием аналитики для альтернативных источников энергии (ветер и так далее).
Согласно исследованиям[152] рост данных для аналитики в реальном времени составит около тридцати процентов в ближайшие два года.
Работа с большими объемами и потоками данных больше не прерогатива крупных компаний с большими бюджетами, теперь она доступна и среднему, и малому бизнесу. Это стало результатом популярности (и, как следствие, появлению простых упакованных решений) технологий Big Data и уменьшению их стоимости.
Одна из технологий, которую компании исследуют и начинают применять в попытках ускорить обработку Больших данных, это in-memory решения. В традиционных БД данные хранятся в системах хранения, оборудованных жесткими дисками или твердотельными накопителями (SSD). In-memory технология хранит данные в ОЗУ, а это во много раз быстрее. В отчете Forrester Research[153] говорится, что рост количества данных в in-memory решениях будет составлять 29, 2 процента в год.
Работа с большими объемами и потоками данных больше не прерогатива крупных компаний с большими бюджетами, теперь она доступна и среднему, и малому бизнесу. Это стало результатом популярности (и, как следствие, появлению простых упакованных решений) технологий Big Data и уменьшению их стоимости.
Одна из технологий, которую компании исследуют и начинают применять в попытках ускорить обработку Больших данных, это in-memory решения. В традиционных БД данные хранятся в системах хранения, оборудованных жесткими дисками или твердотельными накопителями (SSD). In-memory технология хранит данные в ОЗУ, а это во много раз быстрее. В отчете Forrester Research[153] говорится, что рост количества данных в in-memory решениях будет составлять 29, 2 процента в год.
Термин Big Data постепенно отмирает. Он охватывает слишком много тем.
Развивается и специализация. Скоро говорить: «Я работаю в Big Data» будет так же странно, как и «Я работаю с компьютером». Уже сейчас существует множество дисциплин от машинного обучения, сбора и управления данными до их безопасности. Эти дисциплины имеют между собой мало общего или вообще не связаны, но все равно относятся к Big Data. Кроме того, Big Data сейчас проникает абсолютно во все сферы жизни, и выделять ее в отдельную отрасль становится бессмысленным. Промышленность, IT, образование и даже дизайн сейчас используют или начинают использовать инструменты Big Data для сбора и анализа данных, появляющихся в процессе цифровизации.
Послесловие
Сегодня данные стали (или становятся) важной частью нашей жизни. Сервисы и продукты становятся цифровыми.
Надеюсь, что эта книга помогла составить общее понимание о том, как работают системы Больших данных и для чего они вообще применяются.
Появляются новые инструменты и фреймворки, которые позволяют работать с данными максимально широкому кругу людей. И поэтому очень важно, чтобы все эти люди говорили на одном языке и хотя бы примерно представляли, как все это работает.
В этом смысле книга полезна как начинающим, так и уже сложившимся специалистам. Она будет интересна тем, кто задумывается о смене карьеры, и тем, кого своя карьера устраивает/кому просто любопытно.
Мир меняется, и сейчас навык анализа данных требуется и юристам, и маркетологам, и множеству других профессий. Во многих организациях сейчас идут кампании по продвижению data-driven культуры, но тут часто дело ограничивается только технической стороной базовым обучением программированию, SQL и, может быть, вебинарами «Learning для чайников».
Но этого недостаточно. Золотой принцип аналитики это «Garbage in garbage out»[154], что означает: никакие технические навыки не заменят умения понимать, откуда данные взялись, насколько им можно доверять и каковы границы их применимости.
Высокоуровневое представление о Big Data важно и для бизнеса. Сотрудники компаний, собирающиеся монетизировать свои потоки данных, могут с ее помощью оценить, насколько их подход к вопросу системный. Те, кто еще этого не делает оценить, что им (возможно) предстоит сделать в будущем.
«Взгляд с высоты птичьего полета» нужен и обычным людям, никак, казалось бы, не связанным профессионально с миром Big Data. По аналогии с компьютерной грамотностью людям сейчас нужна и data-грамотность. Любой человек сейчас должен понимать, какие «следы из данных» он оставляет, и что с этими данными будет дальше.
Данные, которые мы сейчас довольно бездумно и беззаботно оставляем в публичном доступе, могут остаться там на всю нашу жизнь и влиять на нее. Яркий пример расторжение контракта с Джеймсом Ганном из-за твитов, сделанных в 2011 году.