Big data простым языком - Алексей Благирев 20 стр.


Иными словами, аудитор не может проверить все цифры и все данные в организации. Все, стоп. Зачем я это описываю?

На самом деле, я так попытался пояснить, что такое искажения данных и подготовить вас к сложной части. Но теперь давайте прыгнем в эту темную пучину и попробуем разобраться. Хочу, чтобы вы понимали, что любая ошибка в данных это финансовый эффект, независимо от того, сделана она на верхнем уровне подготовки самой отчетности, или же эта проблема была в первичных данных.

Итак, двигаемся дальше.

У меня есть брат. Мы близнецы. И, наверное, как стало понятно, мы однофамильцы. Так случилось, что мы имели счет в одном и том же банке. Не буду говорить в каком, этому бренду и так досталось, но особо пытливые поймут.

В один прекрасный день в этом самом банке меня внезапно «склеили» с другим клиентом так, что, открыв приложение этого мобильного банка[121], я увидел остатки на счетах другого человека, и у меня даже была возможность управлять этими счетами. Хорошо, что это были средства моего брата.

Но погодите-ка. Причем тут он? Вот и мне это интересно. Но система в банках внезапно заменила все мои данные на его. Даже при звонке в контакт-центр с моего телефона у них отражался другой человек, совсем не Алексей. Опустим, сколько проблем пришлось решить, чтобы я снова мог видеть свои счета и пользоваться банковскими сервисами.

Такая проблема бывает не только у меня, и она никак не связана с тем, есть ли у вас брат-близнец. Она даже может быть не связана с конкретным банком. Оказывается, это ошибка в данных, которая вызывает коллизии во внутренних IT-сервисах, делая недоступным для конечного потребителя стандартный набор функций, на которые он рассчитывал.

Тема качества клиентских данных всегда особо актуальна. Однажды у меня была проблема с одним из клиентов, который по одной из систем имел категорию «хороший клиент», а по другой был «террористом». «Террорист» означает, что система нашла совпадение с одним человеком из списков, которые публиковал Центральный банк. Не все участники этого списка обязательно террористы в буквальном смысле, они вполне могли просто нарушить какой-то закон и попасть туда. Какое-то время назад, как мне рассказывали, в такие списки попадали люди, нарушившие законы, запрещающие участие в пикете или демонстрации.

Что банк должен делать в случае, если один из его клиентов попал в такой список? Правильный ответ: в соответствии с действующим законом он должен приостановить банковское обслуживание и закрыть банковский счет. Кстати, именно эту отговорку часто используют банки, если им нужно закрыть счет и особо не навлекать на себя сложности и тяжелые разбирательства.

А что же должен был делать я? Закрывать счет или нет?

Как бы вы поступили?

Разбирая проблемы в клиентских данных, можно отметить известный случай 2015 года, когда Федеральная налоговая служба ввела для всех налоговых агентов[122] новое обязательное поле к заполнению при подаче справки 2-НДФЛ[123]. Этим полем стало поле «ИНН», которое каждый налоговый агент обязан был заполнять во избежание штрафа.

Причем тут банк? Все просто. Вот я взял кредит в банке и больше не могу по нему платить. Что делает банк? Помимо того, что он насылает на меня своих демонов-коллекторов и бегает с требованиями погасить задолженность, после определенного периода он вынужден будет эту задолженность списать.

Но самое интересно будет дальше. С точки зрения буквы закона и учета, списание задолженности означает, что эти кредитные деньги я признаю себе как доход, а значит, я должен с них заплатить налог. Но если денег у меня нет, то, естественно, налог платить должен банк.

Маленький дурдом получается. Мало того, что банк терпит фиаско с клиентом, так он еще и вынужден заплатить 13 % с этой сделки в бюджет. Cest la vie. Не будем разбираться в справедливости сего факта, попробуем разобраться в следующем. Вот банк должен уплатить налог, а значит, подать еще и справку 2-НДФЛ в ФНС, а в этой справке теперь стоит обязательное поле «ИНН».

Но вот незадача, при выдаче кредита, банк не узнал эту информацию у клиента, потому что она не являлась обязательной. Существует много различных случаев получения такого дохода.

Доход по депозиту тоже можно признать таким же доходом, по которому обязаны подать справку 2-НДФЛ, если ставка, по которому он начисляется, в определенное количество раз больше, чем ставка рефинансирования[124], то в этом случае банк должен отчитаться также в ФНС. Получается, что если вы видите высокую ставку по депозиту и думаете туда положить денежку, то знайте это сверхдоход, по нему нужно удержать налог. Удерживание налога это обязанность налогового агента, то есть банка. Но разве кто-нибудь спрашивает у вас поле «ИНН» в момент, когда на каком-нибудь банковском сайте вы размещаете свою заявку на депозит?

Но вот незадача, при выдаче кредита, банк не узнал эту информацию у клиента, потому что она не являлась обязательной. Существует много различных случаев получения такого дохода.

Доход по депозиту тоже можно признать таким же доходом, по которому обязаны подать справку 2-НДФЛ, если ставка, по которому он начисляется, в определенное количество раз больше, чем ставка рефинансирования[124], то в этом случае банк должен отчитаться также в ФНС. Получается, что если вы видите высокую ставку по депозиту и думаете туда положить денежку, то знайте это сверхдоход, по нему нужно удержать налог. Удерживание налога это обязанность налогового агента, то есть банка. Но разве кто-нибудь спрашивает у вас поле «ИНН» в момент, когда на каком-нибудь банковском сайте вы размещаете свою заявку на депозит?

Конечно, нет. Такое поле по-прежнему не является обязательным при открытии договора депозита или вклада в том или ином банке.

В 2015 году ФНС грозился, что штраф за незаполненное поле «ИНН» с каждой такой записи составит двести рублей, а с 2016 года вырастет до пятисот. Представьте, что я банк. И если у меня сто тысяч клиентов, по которым я списал задолженность, или по которым начисляют зарплату с моих банковских карт, то, умножив сто тысяч на двести рублей, я получу ежегодный штраф в размере двадцати миллионов рублей.

Оценка грубая, но, тем не менее, думаю, смысл стал понятен. С какого-то момента плохое качество данных организации, с которым она работает, начало создать проблемы и новые штрафы для самой организации. Иными словами, плохие данные стали «токсичным» активом, приносящим организации новые убытки в будущем.

Сколько таких «важных» полей существует внутри IT-систем большой организации? Отвечу досрочно десятки тысяч как минимум. Десятки тысяч таких полей, десятки тысяч гигантских табличек, которые нужно проверять и контролировать.

Ошибки могут быть разными. Иногда важно, чтобы указанные данные существовали в реальности, как в случае с полем «адрес», чтобы банк смог доставить корреспонденцию своем клиенту. Многие вбивают в это поле все, что вздумается, но хорошо, что есть такие отличные сервисы как DaData, которые не позволяют вбить несуществующий адрес. Об этом впереди.

Наверняка, заполняя какую-нибудь формочку на сайте, вы сталкивались с его просьбой указать «индекс». А потом вы нервно начинали гуглить индекс указанного адреса.

Но фишка в том, что «индекс» как поле можно и не запоминать, это атавизм. Из утвержденных публичных справочников типа ФИАС или КЛАДР[125], в правильном существующем адресе уже есть индекс, и его можно взять оттуда.

Это ведь просто прекрасно не заполнять поле «индекс». Так почему же его до сих пор заполняют и спрашивают?

Оказалось, что в базе ФИАС[126] (государственный источник) поле «индекс» заполнено не совсем корректными почтовыми индексами. Нужно искать еще и другие правильные источники, например, базу данных «Почты России», но даже в этой базе нет всех тех индексов, которые есть в ФИАС.

Чтобы в этом всем копаться, нужно все это любить и получать удовольствие от разгребания подобных проблем. Большинство людей, ежедневно сталкивающихся с теми или иными цифровыми сервисами, не знают о том, какой объем работы проводится для упорядочивания данных перед тем, как показать их клиенту.

Ошибки, опечатки и погрешности влияют на многие факторы в организации. Однажды, объединяя клиентов одного банка с другим, в процессе консолидации мы внезапно выявили, что несколько тысяч мужчин внезапно изменили пол и стали женщинами. Конечно, у нас демократичная страна, но сей инцидент произошел в суровых сибирских районах, поэтому я по-прежнему склонен думать о наличии очередной ошибки в данных.

Как быть? Как исправить ошибки, которые уже случились? Я ведь не могу пойти на «Горбушку» и купить компакт-диск с данными[127].

Для обогащения данных клиентов и заполнения поля «ИНН», мы пробовали различные методы. Звонили и спрашивали, просили прийти в офис и заполнить анкету, делали даже такую доработку в мобильном приложении или интернет-банке[128].

Эффект на общем потоке составил какой-то мизерный процент, то есть люди не шли и не давали свои данные. Пришлось менять банковские процессы и делать поле «ИНН» обязательным для всех продуктов. Такая вот головная боль из-за одного поля, а таких полей, повторюсь, очень много.

Кстати, если вдруг вы торгуете ценными бумагами, мало ли меня читают такие умные люди, то, наверное, обратили внимание, что в личном кабинете брокера, через который вы торгуете, появилось обязательное требование заполнить поле «ИНН». Совпадение? Не думаю.

Основные методы управления качеством данных

Качеством и проблемами в данных должны управлять специальные люди в организации.

Да ладно вам, согласитесь, что это уже очевидно. Будет странно, если я начну распинаться и объяснять слишком очевидные вещи.

Лучше я объясню, где и как организовать работу таких людей.

Для начала нужно все разбить на две части.

Первая часть это так называемая служба поддержки пользователей, которая приходит на помощь, если что-то случилось с их данными. По-умному эта команда называется дата-стюарды. Да, именно так и называются дата-стюарды. Русского перевода нет. Пусть будет это новое английское слово в нашем лексиконе. Привыкайте, дальше будет веселее.

Задача дата-стюардов проста и понятна разобраться оперативно в каше под названием данные так, чтобы ни один клиент не пострадал, или чтобы вовремя выпустилась отчетность. Ну, кажется, понятно объяснил. Если нет, то, скорее всего, во время чтения этой книги вы слышали какие-то посторонние звуки или встретили другие препятствия,  настоятельно рекомендую избавиться от них. Главное, не говорите потом, мол, Алексей, ты пишешь «непонятно». Даже не думайте. Я ведь очень стараюсь.

Дата-стюарды работают по понятной и прозрачной методике: на них сыплется поток плохих данных, в котором им нужно быстро ориентироваться. В идеале они должны выполнять простые операции, поэтому для их эффективной работы нужно составить простую и прозрачную методику, где будет указано, что они должны делать в конкретном случае. Все. Баста.

Назад Дальше