Управлять контекстом не только во время путешествия вокруг баз данных, но и обмениваться их в индустрии в целом.
Организовать полноценный поиск среди разных форматов файлов и различного контекста.
Управлять и определять взаимосвязями объектов, их жизненного цикла (создание контента и его удаление).
Почему я начал с фото, а не с книг, где метаданные появились в первую очередь? Например, с той же Десятичной Классификации Дьюи[103],которая впоследствии стала основным иерархическим справочником материала для библиотек на добрые полтора века.
Просто потому, что фотографии сыграли ключевую роль в обучении алгоритмов данных. Большая часть нейронный сетей обучалась изначально на большом массиве фотографий, где метаданные были размечены вручную Image.Net. Собственно, если бы не эта большая работа, алгоритмы не могли бы отличать красное от черного, собак от кошек, человека от унитазного бачка
Сегодня метаданные к картинкам теперь могут заполнять сами алгоритмы. То есть они прямо анализируют картинку. Пусть, скажем, там изображена собака на прогулке вдоль городской улицы. Алгоритм напишет, что на фотографии собака, порода лабрадор, а также там есть дома, пожарный гидрант, и все происходит днем. Теперь это тоже часть метаданных.
Само слово «метаданные» впервые ввел Филипп Бэглей в своей книге «Extension of Programming Language Concepts», опубликованной в 1968 году. Он и ввел понятие «прескрипторы», которые описывали данные кратким и понятным образом.
Теперь такие данные собираются обо всем, начиная с географических карт, заканчивая музыкальными файлами.
В России стал популярен сериал «Карточный домик», он о том, какие нелегкие дела творятся в Белом Доме США. Сериал встал наравне с таким гигантом, как «Игра престолов». Пока я работал в офисах последние несколько лет, за обедом коллеги обсуждали исключительно то, как разворачиваются дела у Фрэнка Андервуда, одного из главных героев политического триллера. Но кто задумывался о том, что Netflix инвестировал в создание этого сериала анализ метаданных от 44 миллионов своих пользователей[104]?
В общем, понятно, что метаданные это важно, и что на них делают бизнес.
Правда, сегодня существует ряд проблем, связанных с ними. Вот ребята делают исследование. Их больше всего интересует его результат, нежели сделать по итогам исследования правильную архивацию, расставить необходимые метки и признаки[105]. Получается, что исследование есть, а поженить это исследование с другими наборами данных сложновато.
Порой даже те данные, которые публикуют, представляют собой не полную выборку, а какой-то ее определенный фрагмент для поддержания результатов исследования.
В 2016 году журнал «Science» опросил более полутора тысяч ученых, представляющих ключевые дисциплины (химия, биология, медицина, физика, экология и другое), с целью понять, как именно они используют свои данные: могут ли они их воспроизвести и повторить результат исследования?
Оказалось, что более семидесяти процентов исследователей не смогли воспроизвести результаты других ученых. Как факт 52 процента[106] из них подтвердило, что в науке начался новый кризис воспроизводимости результатов, говорящий о том, что большинство результатов полученных в современной науке невозможно повторить. Одна из названных причин данные, другая отчетность, публикуемая в поддержку тех или иных гипотез. Такая отчетность представлена выборочно, то есть команда проекта публикует только те отчеты, которые поддерживают исследование, а не опровергают его.
Низкий уровень культуры работы с ними делает невозможным повторное их использование. С другой стороны, в науке нет консенсуса в вопросе «как нужно использовать данные, чтобы можно было возобновить на них результаты исследований другого учетного». Просто потому, что время, потраченное на причесывание таких данных, увеличивает время, потраченное на исследовательский проект, более чем на тридцать процентов, поэтому не всем очевидно, зачем это делать.
Одна из успешных стратегий снижения риска заключается в том, что на основании данных нельзя будет ничего воспроизвести в этом случае необходимо формулировать гипотезу и планировать, какие данные нужны будут для ее подтверждения с участием третьих лиц.
Какова разница между воспроизведением и репликацией результатов исследования? Для репликации можно взять данные из репозитория и использовать на них код. Пусть это не всегда работает, но все же работает. А вот получить результаты, близкие к лабораторным, крайне сложно, потому что нет единой модели метаданных то есть, описания того самого единого города, в котором мы находится.
Представьте, что у вас есть чертежи различных строений на разных языках с разным форматом описания. А вам нужно попробовать выделить общее между ними, например, понять, где находится лифт, нуждается ли он в ремонте, узнать, как организованы системы снабжения и коммуникации. У вас на столе лежит несколько различных схем, в которых без бутылки не разобраться.
А что, если часть таких схем просто сфабрикована и не имеет ничего общего с реальными построениями?
Йошихиро Сато был известным уважаемым японским специалистом по костям. Он посвятил пятнадцать лет исследованиям в области остеохондроза, опубликовал порядка двухсот научных результатов и провел более 33-х клинических исследований.
В составе группы ученых Йошихиро Сато исследовал влияние болезни Паркинсона на снижение массы костей и скелета, как следствие, на возможное осложнение остеохондроза[107] у пациентов в районе Kahanzan. Формировались небольшие выборки пациентов по 86 человек в среднем, к которым добавляли других пациентов с болезнью Паркинсона, и давали лекарство вместе с таблеткой плацебо. Средний возраст пациентов составил 70,6 лет (от 65 до 88). В контрольной группе было 35 мужчин и 51 женщина.
Группы наблюдались в течение 18-ти месяцев, пациенты оценивались и осматривались каждые две недели. Им давали витамин D, а сложное рентгеновское оборудование анализировало толщину их костей. Во избежание влияния третьих факторов составлялись сложные опросники по диете, влиянию солнечного света и так далее. У одной из групп было выявлено существенное снижение кальция в костях (более чем на 25 процентов). Тогда этим пациентам предложили использовать определенные витамины и питание для повышения усвояемости витаминов в костях, чтобы не было потери массы. Исследования показали положительную корреляцию употребления витаминов D и B для пожилых людей со сложными болезнями Паркинсона и Альцгеймера.
В январе 2017 года Йошихиро Сато скончался при невыясненных обстоятельствах[108]. Оказалось, большинство его работ по клиническим исследования содержат сфабрикованные данные, которые впоследствии были опровергнуты научным сообществом. Он стал автором крупнейшего скандала в науке с подделкой данных.
Годом ранее Марк Болланд из университета Окланда (Новая Зеландия) провел статистические исследования с использованием данных господина Сато за все 15 лет работы и выявил, что большинство его исследований подделка. Даже соавторы в большинстве работ, как оказалось, не знали о своем участии и не участвовали в этих работах вовсе. Теперь ответ, каким образом Йошихиро Сато смог опубликовать более двухсот научных работ, лежал на поверхности. При более детальном изучении данных, открывались новые подробности о том, как он мог собирать 280 пациентов для своих исследований всего за два месяца или наблюдать 780 пациентов в течение 18 месяцев одновременно.
Для сравнения отмечу: нанять на работу 280 сотрудников за два месяца возможно, разве что для простой работы, например, контакт-центр или поддержки. Найти квалифицированных специалистов или, как было указано в исследовании, пациентов с конкретной болезнью очень проблематично.
Судьбы людей вершились исключительно при использовании данных. Болланд никогда лично не встречался с Сато и впервые о нем услышал только в 2012 году, когда его коллега доктор Алисия Авенелли рассказала ему о странных данных в исследованиях Сато[109], которые при проверке оказались слишком научными.
Для сравнения отмечу: нанять на работу 280 сотрудников за два месяца возможно, разве что для простой работы, например, контакт-центр или поддержки. Найти квалифицированных специалистов или, как было указано в исследовании, пациентов с конкретной болезнью очень проблематично.
Судьбы людей вершились исключительно при использовании данных. Болланд никогда лично не встречался с Сато и впервые о нем услышал только в 2012 году, когда его коллега доктор Алисия Авенелли рассказала ему о странных данных в исследованиях Сато[109], которые при проверке оказались слишком научными.
Первый контакт состоялся в Марте 2013 года, когда Болланд и Авенелли написали в журнал Американской Медицинской Ассоциации наиболее уважаемый журнал из тех, которые публиковали статью и исследования Сато. Главный редактор журнала дал указание обратиться к Сато и его институту, чтобы получить пояснения по выявленным в данных фактам.
Через два года, в апреле 2015-го, никакого ответа не пришло, в связи с чем журнал опубликовал результаты расследования и претензию к полученным и ранее опубликованным результатам Сато. Репутация Сато была настолько высокой, что журналы не решались поначалу идти против него и предъявлять обвинения в искажении результатов.
К декабрю 2016 года только 10 из 33 опытов были опровергнуты, когда вышло очередное расследование в журнале «Нейрология».
Только пять процентов[110] из опубликованных исследований приходят из Японии, поэтому такой удар по научной среде привел к потере репутации для японских ученых. Остается загадкой, зачем Йошихиро Сато подделывал так много результатов своих работ и фальсифицировал данные.
На сегодняшний день он занимает шестую строчку по количеству отозванных результатов клинических исследований[111].
На первом месте в этом списке находится японский ученый Йошитака Фуджи, который занимался клиническими исследованиями в области анестезии. Согласно отчету, опубликованному 8 марта 2012 года, во всех 169-ти клинических испытаниях данные были искажены и сфабрикованы (в общей сложности для 171-го исследования).
На втором месте находится Хоаким Болд с исследованиями в области грудной хирургии, который так же был уличен в подделке данных[112].
На третьем месте Дидерик Штапель со своими сфабрикованными исследованиями в области социальной психологии[113]. В целом масштаб таких проблем в науке поражает. Эти имена лишь верхушка айсберга.