Big data простым языком - Алексей Благирев, читать онлайн бесплатно (полностью) 19 стр.

Спасти эту ситуацию может блокчейн. Одно из решений платформа Frankl[114], которая интегрирует всех ученых в единую открытую сеть. Туда можно загружать данные и делиться ими друг с другом для проверки чужих или проведения своих подобных исследований. Если не вдаваться в подробности, то Frankl пытается создать распределенную сеть, где можно будет контролировать качество данных, что фактически снизит размер потенциальных фальсификаций.

Регистрировать все метаданные на блокчейне самый простой шаг, но очень мощный, чтобы контролировать полноту данных, используемых в исследованиях.

Итак, метаданные это в первую очередь явление чисто человеческое, то есть, его нет в природе. Человек разработал его специально для себя, чтобы обрабатывать большие объемы информации и оптимизировать поиск необходимого контента. Метаданные уже спроектированы и во многом генерируются автоматическими устройствами.

С другой стороны, мы вовсе не коснулись проектирования баз данных. И это хорошо, потому что это очень занудная для обычного читателя тема. Если кратко, то при проектировании сложных экосистем метаданные используются для управления потоками загрузки и обработки данных. Они формируют управляющую логику того, как данные собираются и обрабатываются.

Есть интересная работа, надеюсь, не поддельная, по оптимизации работы с базой данных Википедии[115]. В работе предложен специальный инструмент по управлению и архивированию исторических данных: индексы, каталоги, описание все, что помогает оптимизировать поиск по историческим данным.

В зависимости от используемого решения систем хранения и обработки данных, на рынке предлагаются различные решения по управлению метаданными, использующими специальные сервера[116]. По версии «волшебного квадранта» Гартнера, лидером таких решений является Informatica[117]. Хотя, конечно, я слышал, что за то, чтобы попадать регулярно в этот квадрант, нужно платить определенную сумму, поэтому там нет начинающих или малоизвестных компаний.

Все эти решения отличаются как функциональными возможностями, так и пользовательским интерфейсом. Пользователями таких решений являются инженеры в области данных, они здесь самый ценный ресурс, так как этой компетенции, к сожалению, не обучают в ВУЗах, а количество специалистов на рынке стремится к минимуму.

Раньше процесс найма проходил в основном самостоятельно, в недрах IT. Сегодня за это должен отвечать отдельный лидер в организации. Но вопрос о том, где взять специалистов, по-прежнему актуален, поэтому приходится выкручиваться. Я, например, был сторонником того, чтобы поощрять горизонтальное движение сотрудников как внутри организации, так и за ее пределами.

Мы собирали ребят из службы IT-поддержки, потому что им по факту приходилось ковыряться в базах данных различных IT-систем, анализируя те или иные метаданные. Приглашали на работу сотрудников других компаний, которые занимались выпуском и проверкой финансовой отчетности. Такие люди понимают ценность данных и анализируют, в каких системах лежат наиболее ценные данные. Каждый такой кейс мы рассматривали отдельно.

Обучение новым навыкам мы строили на основе практики, потому других источников знаний у нас не было. С одной стороны, это создавало риски, с другой поощряло свободу к действиям. Сотрудники были как никогда нацелены на результат, а их предыдущий опыт помогал находить нестандартные решения в тех или иных вопросах.

Стоит отметить, что бизнес-лидеры не всегда понимают ценность отдельно взятых решений по работе с метаданными.

Это какая-то малопонятная область работы и применения ресурсов, и не всегда ясно, зачем на это нужно тратить время. Надеюсь, что пример с чертежами зданий и новые фильмы по аналогии с «Аноном» позволяют раскрыть потенциал метаданных. Моделей монетизации таких решений очень мало.

Например, при расчете себестоимости функции работы с данными как сервиса, я использовал исследования Калифорнийского университета, где была приведена модель затрат и ценообразований функции использования данных. В этом отношении я мыслил достаточно просто нужно было продавать именно данные как сервис, а работу с метаданными сделать обязательным компонентом себестоимости этого сервиса. Сервисная модель работы с данными относительно новое явления для бизнеса, так как большинство лидеров для тех или иных задач выделяют ресурсы напрямую.

Сервисная модель предоставления данных это отражения новой идеологии, постепенной захватывающей новые ниши в различных секторах экономики. Эта идеология называется концепцией единого цикла, конечному клиенту предоставляется не сам продукт, а результаты работы этого продукта как сервис. Можно не покупать автомобиль, а платить за эффективный километр. Так и здесь. Нет смысла продавать сложную инфраструктуру, нужно предложить сервис доступа и получения данных.

Сервисы работы с метаданными можно также выделить в отдельный сервис для поддержки работы и обучения нейронных сетей. С другой стороны, с использованием метаданных можно сделать отличный сервис по получению и сбору данных из различных источников, так называемые краулеры[118] для создания хабов данных. Такие краулеры помогают собирать различные данные из сложно структурированных источников, таких как сайты, сложные файлы, внешние хранилища и другие.

Из метаданных выстраиваются те самые связи, благодаря которым герои фильма «Анон» могли перемещаться между различными источниками данных. Вспоминая этот фильм, я в первую очередь представляю объем работы, которую проделало человечество, чтобы связать источники данных, сделать сложно иерархические структуры, эффективно применяющие алгоритмы быстрого поиска.

Но, с другой стороны, именно метаданные становятся тем самым уязвимым местом в системе, если за ним никто не присматривает. Хакеры могут использовать эти данные для получения незаконного доступа, а проблемы с качеством могут поставить крест на важнейших исследованиях для человечества.

Все так красиво и понятно. Строить здания без чертежей как бы неправильно, но что же делать со всей существующей инфраструктурой, где место для метаданных могло быть не заложено вовремя в виду тех самых коммуникационных сложностей?

Необходимо искать нестандартные пути и решения, потому что эффективное управление информационным ландшафтом это ключевой вызов сегодняшнего дня, на который крупному бизнесу еще предстоит ответить.

Глава 6
Зачем нужно качество данных?

Раз вы добрались до этой главы, тяга к новым знаниям дарована вам природой или же воспитана в суровых сибирских условиях.

Тема качества данных лично меня коснулась не сразу. Работая в команде вышколенных аудиторов выпускников лучших ВУЗов страны, мы привыкли опираться на свое мнение: делать выводы на основании данных, документировать и предоставлять описание своих ключевых суждений, которые ложились в основу аудиторского заключения.

Вот ты приходишь в банк, и тебе дают на руки выгрузку из проводок оборотно-сальдовой ведомости это такая большая табличка с остатками и оборотами, где находится все на свете. И обычно аудиторы сбивают сначала оборот и остаток по оборотно-сальдовой ведомости с тем, что есть на счетах в отчетности, которую банки публикуют и отправляют в Центральный банк Российской Федерации.

Итак, вот мне сгружают тонну данных это примерно несколько миллионов записей. В то время Excel еще не умел работать с такими количествами, это уже после он смог анализировать четыре миллиона записей. Приходилось разбирать этот большой объем данных на части.

Каждому аудитору доверяли какую-то конкретную секцию. Если смотреть на финансовую отчетность, то секция это один ее раздел. Надеюсь, вам удавалось хоть раз на нее взглянуть. Если нет, взгляните для примера на публикуемую отчетность по МСФО[119] любой российской компании или банка, например ВТБ, она, кстати, отличается от остальных тем, что ее составляют в миллиардах рублей. ВТБ был одним из первых банков, которые перешли на выпуск отчетности в миллиардах рублей. Сегодня не так много компаний могут этим похвастаться.

Что это значит в практическом плане? В первую очередь это, конечно же, размер потенциальной ошибки. Раньше у аудиторов была проблема с одной частой ошибкой при подготовке отчетности с округлением.

Вот представьте, что вы округляете цифры для отчетности так, чтобы это соответствовало принятому размеру внутри самой отчетности миллиарды, миллионы, тысячи и так далее. Раньше, когда появлялась та самая «единица», которая возникала из-за округления значений строк, аудиторы обычно пристраивали ее в какую-то из строчек так, чтобы общая сумма сходилась. Потому что иначе при сложении сумма расходилась с той суммой, которая была посчитана на более маленьких значениях.

Да и какая разница, в какой строчке баланса будет больше на одну единицу, а в какой меньше. А если дело касается миллиардов? У вас из-за округления появится плавающий миллиард

Насколько сильно это повлияет на качество конечных данных? Насколько сильно это повлияет на принимаемые решения?

В таком случае аудитор всегда обязан определить ту разницу, которая может и не может одновременно влиять на принимаемые решения на основании выводов из финансовой отчетности. Вы спросите меня как?

Очень просто, есть такое понятие как «материальность» или по-нашему существенность. Это означает размер потенциального искажения информации, которая может ввести пользователя в заблуждение, из-за которого он сделает неверные выводы, а то и неверные действия на основании некорректных данных.

Насколько материален миллиард? Вот вы смотрите на отчетность, возможно, вы ничего в этом не понимаете, но вам важно, что тут «плавает» миллиард между строк?

А теперь давайте спустимся на уровень ниже, так как это все вершина пирамиды. На самом нижнем уровне данные собираются из разных источников и могут искажаться гораздо существеннее чем на один миллиард рублей.

Но стоп

Вы меня спросите, как такое возможно, если отчетность не сходится всего на один миллиард рублей? Следите за руками. Когда аудитор делает проверку, он должен гарантировать, что цифры не искажены во всех материальных аспектах. Материальность можно определить по-разному. Например, взять один процент от размера полученной прибыли до налогов или полпроцента от размера активов, которыми владеет организация и так далее. В общем, подходов много. Но суть в том, что, определяя этот самый размер «существенной» чувствительности к принимаемым решениям, организация отсекает ниже этого уровня все суммы, которые отныне считаются неважными[120]. Таким образом аудитор проверяет отчетность во всех материальных аспектах и гарантирует при этом достаточный уровень уверенности в положительном исходе. Если спросить меня, что такое «достаточный» уровень, и чем он отличается от «абсолютного», то я отвечу всем. Это не одно и то же.

Big data простым языком - Алексей Благирев 19 стр.

Глава 6
Зачем нужно качество данных?

Меню

Big data простым языком - Алексей Благирев 19 стр.

Глава 6Зачем нужно качество данных?

Меню

Глава 6
Зачем нужно качество данных?