Подготовка набора данных для обучения и тестирования программного обеспечения на основе технологии искусственного интеллекта. Учебное пособие - Васильев Юрий Александрович 2 стр.


Большой объем данных способствует оптимальной организации интересующей сферы (в частности, здравоохранения) для достижения наилучших результатов работы. Данные могут быть использованы для прогнозирования текущих тенденций определенных параметров и будущих событий. В последние годы в медицинской практике активно внедряются электронные медицинские карты и медицинские информационные системы, что приводит к необходимости стандартизации медицинской информации.

Например, результаты лабораторных (патоморфологические исследования, клинические анализы, генетические исследования и т.д.), лучевых (КТ, МРТ, ММГ, УЗИ, рентгенография и т.д.) и сигнальных (ЭКГ, ЭЭГ, ЭНМГ и т.д.) исследований максимально стандартизованы и оцифрованы, что способствует росту количества данных по этим направлениям, инструментов для их обработки (программное обеспечение, предназначенное для обработки медицинских данных), передачи и хранения, и, как следствие, развитию ТИИ в этой области8.

Внедрение ТИИ в сферу здравоохранения позволяет повысить качество предоставляемых услуг [1], а также снизить нагрузку на врачей. Например, при скрининге рака молочной железы требуется «двойное чтение» результатов маммографических исследований, т.е. каждое исследование должно быть просмотрено двумя специалистами.

Однако многочисленные исследования9 показывают, что одно чтение можно доверить ПО на основе ТИИ, при этом качество скрининга не ухудшается10. Другой пример успешного применения ПО на основе ТИИ  пандемия COVID-19: в условиях острой нехватки медицинского персонала применение ТИИ позволило уменьшить время обработки заключения КТ11, а также осуществить сортировку исследований, благодаря чему исследования пациентов в более тяжелом состоянии обрабатывались в первую очередь [3].

Однако для успешного применения ТИИ необходимо создание релевантных, репрезентативных, корректно размеченных наборов данных (НД).

НД используются не только для разработки и обучения ПО на основе ТИИ, но и их валидации, т.е. проверки качества работы ПО. Благодаря Национальной стратегии развития искусственного интеллекта в Российской Федерации стало возможным активное создание и внедрение в повседневную практику таких НД, а также инструментов их хранения, администрирования и использования.

На первый взгляд может показаться, что создание НД  несложный процесс: ведь ежедневно генерируются терабайты данных медицинской информации, а применение МИС позволяет их хранить, передавать и использовать (например, данные лучевой диагностики медицинских организаций ДЗМ хранятся в Едином радиологическом информационном сервисе  ЕРИС ЕМИАС). Тем не менее процесс создания НД (не стоит забывать о том, что они должны быть релевантными, репрезентативными и корректно размеченными)  очень сложный, имеет множество важных аспектов и вовлекает в себя большое количество специалистов, как медицинских (врачи, лаборанты), так и технических (инженеры, разработчики, аналитики и т.д.), а также смежных направлений (биофизики, кибернетики, биоинформатики).

Кроме того, недостаточно создать НД  необходимо уделить внимание инфраструктуре и инструментам хранения, использования и управления, таким, например, как библиотеки и реестры. Их основными задачами являются аннотация, интеграция и представление НД для контроля качества, удобного и повсеместного использования, в том числе для ПО на основе ТИИ.

Методологии создания наборов данных для сферы здравоохранения продолжают формироваться и в настоящее время, прежде всего  на основе масштабных научных исследований. Так, в основу настоящего учебного пособия положены результаты «Эксперимента по использованию инновационных технологий в области компьютерного зрения для анализа медицинских изображений и дальнейшего применения в системе здравоохранения города Москвы» (mosmed.ai)  крупнейшего в мире проспективного многоцентрового клинического исследования технологий искусственного интеллекта [3].

Глава 1. НАБОРЫ ДАННЫХ И ПРИНЦИПЫ ИХ КЛАССИФИКАЦИИ

1.1. Основные понятия

Медицинские данные подразделяются на несколько подмножеств, каждое из которых является важным компонентом в обучении, оценке качества ПО на основе ТИИ и используется для других прикладных и фундаментальных задач в сфере искусственного интеллекта для здравоохранения. Каждый компонент (подмножество, набор) данных направлен на решение определенной задачи.

Набор данных (НД)  это совокупность данных, прошедших предварительную подготовку (обработку) в соответствии с требованиями законодательства Российской Федерации об информации, информационных технологиях и о защите информации и необходимых для разработки программного обеспечения на основе искусственного интеллекта [1].

Разметка данных  этап обработки структурированных и неструктурированных данных, в процессе которого данным (в том числе текстовым документам, фото- и видеоизображениям) присваиваются идентификаторы, отражающие тип данных (классификация данных), и (или) осуществляется интерпретация данных для решения конкретной задачи, в том числе с использованием методов машинного обучения [1].

В процессе создания, хранения и использования НД необходимо руководствоваться следующими нормативно-правовыми актами, межгосударственными и национальными стандартами:

 Указ Президента Российской Федерации от 10.10.2019 490 «О развитии искусственного интеллекта в Российской Федерации»;

 ГОСТ 34.6022020. Информационные технологии. Комплекс стандартов на автоматизированные системы;

 ГОСТ 19.20178. Единая система программной документации. Техническое задание. требования к содержанию и оформлению;

 ГОСТ 19.10177. Единая система программной документации. Виды программ и программных документов;

 ГОСТ Р 59921.1-7-2022. Системы искусственного интеллекта в клинической медицине. Алгоритмы анализа медицинских изображений;

 ГОСТ Р 8.7362011. Государственная система обеспечения единства измерений. Измерения прямые многократные. Методы обработки результатов измерений. Основные положения;

 Федеральный закон «Об информации, информационных технологиях и о защите информации» от 27.07.2006 149-ФЗ.

Для обучения, внутренней и внешней валидации, клинико-технических и клинических испытаний технологий искусственного интеллекта применяют эталонные наборы данных, под которыми понимают упорядоченную совокупность:

 результатов диагностических исследований одной или нескольких модальностей и/или однотипных медицинских документов;

 сведений о наличии, характере и локализации и т. д. целевых признаков; для текстовых документов  библиотеки ключевых слов, словосочетаний и их критичных сочетаний;

 сведений о верификации (опционально).

Информация о наличии, характере, локализации и т. д. целевых признаков (в том числе в соответствии с Международной классификацией болезней  МКБ) может быть подтверждена объективно  в таком случае набор данных именуется верифицированным.

Размер набора данных (математически  размер выборки) и баланс классов определяются исходя из целей и задач проводимого исследования и требований технического задания на проведение исследований, а также с учетом требований заказчика.

Эталонный набор данных должен быть проверен профильной медицинской научно-исследовательской организацией на предмет полноты и качества содержащейся в нем информации. Рекомендуется при проведении клинических испытаний применять эталонные наборы данных, имеющие государственную регистрацию в качестве базы данных.

Эталонный набор данных для клинических испытаний должен содержать такие сведения (описательного характера) [4]:

 номер свидетельства о государственной регистрации базы данных (рекомендательно);

 характеристика популяции (гендерно-возрастные показатели, этнический состав, регионы проживания и т.д.);

 сведения о медицинских организациях, послуживших источниками для формирования набора данных;

 характеристика исследований: анатомическая область (-и), модальность, проекции;

 целевой признак;

 общее количество клинических случаев, исследований, изображений, документов и их распределение по диагностическим группам (в т.ч. «норма»/«патология»);

 сведения о верификации.

Требования к эталонному набору данных [4]:

1. Структура набора данных должна соответствовать поставленной цели его формирования (решаемой клинической задаче).

2. Планируемый размер эталонного набора данных должен быть обоснован в протоколе исследования, исходя из статистических соображений и желаемой точности оценки основных метрик.

3. Разметка должна быть проведена с использованием стандартизированной терминологии  т.н. тезауруса (кодированной библиотеки типовых формулировок, соответствующих нормативно-правовой документации, клиническим рекомендациям или рекомендациям профессиональных врачебных ассоциаций).

4. Подготовка и разметка должны быть проведены техническими и медицинскими специалистами, имеющими соответствующие навыки и компетенции.

Наборы данных для обучения и тестирования алгоритмов искусственного интеллекта можно классифицировать различными способами. Например, выделяют наборы со структурированными, частично структурированными и неструктурированными данными; либо разделяют их по источникам формирования, условиям использования, типам биомедицинских и клинических данных, по временным характеристикам, файловой структуре, наконец, по видам задач, для решения которых наборы сформированы и т. д.

Рекомендуется использовать две классификации: по диагностической ценности (подробнее см. параграф 1.2 «Классификация разметки и наборов данных») и по целевому назначению (подробнее см. параграф 3.1 «Этап инициирования создания набора данных»).


Контрольные вопросы

1. Дайте определение понятию «Набор данных».

2. Дайте определение понятию «Разметка данных».

3. Перечислите нормативно-правовые акты, регулирующие создание набора данных.

4. Что такое эталонный набор данных?

5. Перечислите основные требования к эталонному набору данных.

1.2. Классификация разметки и наборов данных

Под разметкой в контексте классификации медицинских наборов данных понимается установка категориального или визуального признака в данных, выполненная медицинским персоналом и/или врачом-экспертом.

Класс разметки варьируется в зависимости от задачи, поставленной ПО на основе ТИИ, и основывается на методах верификации данных. В таблице 1 представлены принципы классификации методов верификации, разработанные на основе собственного опыта, а также рекомендаций Управления по санитарному надзору за качеством пищевых продуктов и медикаментов (Food and Drug Administration, FDA [5]). Под верификацией понимают проверку данных на достоверность, правильность и точность. На рисунке 1 изображены методы верификации данных по возрастанию их ценности.



Рисунок 1  Диаграмма методов верификации НД


Наименьшей ценностью обладает верификация по заключению врача, т.е. вывод о наличии или отсутствии патологии делается на основании заключения врача, описывавшего исследование. Как правило, такой способ разметки используется на первых этапах отбора данных и может быть осуществлен с помощью алгоритмов автоматического анализа текстовых протоколов, например MedLabel12. Следующим по ценности методом верификации является экспертный пересмотр: слепой анализ исследований врачами-экспертами с достижением заданного уровня согласованности их решений (подробно описан в подпараграфе 3.3.2 «Разметка данных»). Следующие две группы методов являются наиболее достоверными, и их можно условно назвать «подтвержденный диагноз»: исследование той же модальности в динамике, исследование другой модальности, лабораторное исследование, которые в совокупности с остальными данными медицинской карты дают клинический диагноз. Стоит отметить, что для верификации каждой патологии существует свой метод «золотого стандарта», который позволяет подтвердить диагноз.

На рисунке 2 представлена классификация видов разметки на примере рака молочной железы (РМЖ) с учетом ценности разметки.


Рисунок 2  Классификация видов разметки в медицинской диагностике по диагностической ценности


В наиболее общем виде разметка данных может проводиться на основании:

А. Информации об имеющейся целевой патологической находке, представленной на изображении в виде пиксельной маски (оконтуренной области изображения). Дополнительно может содержаться в метаданных (аннотации).

B. Информации об имеющейся целевой патологической находке, представленной в виде координат. Может помещаться в метаданных (в аннотации, в сводном табличном сопроводительном файле) и/или присутствовать на изображении в виде отметки области расположения простой геометрической фигурой.

С. Информации о наличии/отсутствии целевой патологической находки, содержащейся в метаданных (то есть в аннотации  сопроводительных файлах) и отсутствующей на изображении.

Классификация A, B, C для уровня 3 (обнаружение находки) предполагает вовлечение врачей-экспертов с целью поиска (наличие/отсутствие  С), локализации (В) и сегментации (А)13.

В случае локализации врачу необходимо обозначить координаты области интереса простой геометрической фигурой, в случае сегментации  обвести контур области интереса, т.е. создать пиксельную маску. Для уровня 2 (классификация находки) необходимо классифицировать находку, используя общепринятые шкалы (например, BI-RADS14, ASPECTS15). Для уровня 1 (подтвержденный диагноз) необходимы данные медицинской карты, позволяющие поставить диагноз.

Классификация отображает взаимосвязь:

 объемов и качества исходных данных;

 трудозатрат на подготовку;

 методик разметки и работы с первичными данными;

 диагностической ценности.

Стоит отметить, что данная классификация применима в случае поиска патологических находок. Для некоторых НД, например, при задаче сегментации анатомической структуры, подтверждение диагноза неприменимо, соответственно данную классификацию использовать нельзя.

Также разметку данных можно разделить на проспективную и ретроспективную, т.е. по времени их получения.

Проспективная разметка аналогично ретроспективной разметке представляет собой сбор элементов в соответствии с поставленной целью, при этом обязательным условием является проведение дополнительных манипуляций с элементами (например, постановка метки начала и окончания события, меток обнаружения признаков, обозначений патологий и т.п.). Этот вид разметки проводят с участием обученного медицинского персонала (зачастую квалифицированного врача в субспециализации размечаемого набора данных) путем ручного аннотирования содержания данных или их частей.

Ретроспективная разметка данных представляет собой сбор элементов в соответствии с метаданными, которые отбираются по поставленной цели. Такую разметку проводят путем минимальных трудозатрат: выгрузка данных происходит из медицинской информационной системы, которую может провести инженер (аналитик) без участия врача. При этом для каждого элемента (изображение, сигнальные данные и т.д.) набора данных устанавливают соответствие с медицинской информацией (диагноз, результаты лабораторного тестирования и т.п.).

Назад Дальше