Более содержательно о метаанализе можно прочитать в Интернете на сайте http://www.statsoft.ru/statportal/tabID_50/MId_449/ModeID_0/PageID_353/DesktopDefault.aspx, но в нашем случае важны не детали, а принцип метаанализа.
Итак, из рисунка видно, что во 2-й, 4-й, 5-й, 9-й и 10-й работах результаты были отрицательны – глюкагоноподобный пептид-1 достоверно не снижал аппетит. Хотя в них отмечена определённая тенденция к положительному эффекту (средняя величина находится слева от вертикальной черты). А в остальных работах был получен достоверно положительный эффект (1-я, 3-я, 6-я, 7-я, 8-я и 11-я работы).
Предположим, что недостоверные результаты – следствие недостаточно большой группы обследования. Тогда объединение групп больных из статей в единую большую группу (с достоверными и недостоверными результатами) может дать в сумме высокодостоверный результат – нижняя точка на графике. Отсюда и название – метаанализ, т. е. анализ результатов за пределами («мета») отдельных статей. В итоге делается следующий «логический» вывод. Поскольку достоверный результат метаанализа получен в результате объединения статей с достоверными и недостоверными результатами, то следует полагать, что во всех включённых в метаанализ научных работах исследовавшийся эффект положителен. Причём достоверно положительный результат метаанализа в значительно степени зависит от включённых в него работ с достоверным эффектом. Чем в большем числе работ получен положительный результат и чем он достовернее, тем достовернее доказательство эффективности воздействия в метаанализе. Однако эта логика довольно спорна. Для того чтобы убедится в этом, рассмотрим график детальнее.
На графике видно, что из выбранных для метаанализа работ четыре принадлежат одной и той же исследовательской группе (Gitswiller и др.). Причём именно эта группа исследователей получила наиболее убедительные положительные результаты, а поскольку это одна группа, то в анализ включены фактически не четыре работы, а одна. Тогда если предположить (в качестве мысленного эксперимента), что эта научная группа провела исследование тенденциозно, и исключить её результаты из анализа, то из оставшихся исследований будет невозможно скомбинировать достоверный результат. В итоге оказывается, что в большинстве работ получен отрицательный результат. А если учесть, что публиковать предпочитают положительные результаты, реально представленная в научной литературе информация далека от полноты, и метаанализ не является идеальным методом доказательства надёжности лечения или диагностики болезней.
Метаанализ был предложен эпидемиологами всего лишь для расчёта необходимого числа больных, включаемых в исследование, чтобы гарантировать статистически достоверные показатели планируемого исследования, а не для вынесения категорических и окончательных суждений. По этой причине результаты метаанализа должны быть лишь основой для планирования клинических экспериментов, в которых полученный при метаанализе результат следует ещё подтвердить. Итак, даже серьёзные научные исследования, результаты которых были подвергнуты метаанализу, следует воспринимать достаточно критично. Хотя нужно отметить, что метаанализ признан лучшим из инструментов доказательной медицины (табл. 2.1).
Ещё один пример потенциальной ненадёжности некоторых научных экспериментов. Для усиления контроля за исследованием используют так называемый двойной слепой метод – ни больной (1-й уровень «ослепления»), ни врач (2-й уровень «ослепления») не знают, получает больной лекарственный препарат или плацебо («пустышку»). В конце исследования результаты лечения сравнивают. Очевидно, что препарат должен оказать существенно лучший эффект. Если в исследовании используют «ослепление», его называют контролируемым, а если при этом выбор плацебо/лекарства для лечения происходит случайным образом, такое исследование называют рандомизированным контролируемым (РКИ).
Лукавство РКИ можно проследить на примере известного анекдота об учёном. Незадачливый учёный решил проверить, где у блохи находится орган слуха. Для этого он некоторым блохам отрывал лапки и приказывал им прыгать. Так как без ног блохи переставали прыгать, учёный сделал «естественный» вывод, что орган слуха у блохи находится в лапках.
Дополним этот анекдот: предположим, что исследователь блох – добросовестный учёный, который решил подтвердить результат в РКИ. Для этого он попросил своего коллегу оторвать у некоторых блох лапки – в зависимости от того, выпали орел или решка. Затем поместить в мешочек блох с лапками и без них, а этот мешочек встряхнуть, чтобы блохи как следует перемешались. Далее он попросил коллегу вслепую вынимать блох из мешочка и класть на стол, а сам приказывал блохам прыгать и только после этого исследовал, есть у блохи лапки или нет. Очевидно, что и в этом случае прыгать не будут только блохи без лапок, и учёный окончательно «убедится», что орган слуха находится в лапках. При этом, как мы видим, соблюдены все формальные признаки правильного двойного слепого исследования:
• лапки отрывали не всем блохам (эффект «пустышки», т. е. контролируемость);
• лапки отрывали случайно (рандомизация);
• учёный, выбирающий блох, не знал, с лапками или нет блоха (первое «ослепление»);
• основной исследователь блох, который отдавал приказ блохам прыгать, не видел, есть ли у блохи лапки (второе «ослепление»).
И всё же вывод оказался неверен. Если эксперимент в целом неверно спланирован, даже самые изощрённые технические приёмы его организации ничего исправить не могут. В чём ошибка? В методе исследования, который не соответствует поставленной задаче – изучению слуха у блохи. Выбор движения живого существа в ответ на звук в качестве критерия «слышит/не слышит» в принципе не вызывает особых возражений, так как это общеизвестное наблюдение. Однако для этого животное должно обладать, по крайней мере, возможностью двигаться, которой учёный лишил блоху, отрывая ей лапки.
Исходя из этого, очевидно, что современная диагностика болезней должна быть основана на надёжных научных фактах, а это непросто, так как не все факты, опубликованные в научных статьях, доказанные.
В 2002 г. была предложена классификация степени надёжности научных данных[1], в которой оценивают риск медицинского вмешательства, методологическое качество исследования, и на основании этого дают рекомендации (табл. 2.1).
Степень 1 – преимущества медицинского вмешательства над вредом здоровью очевидны и полностью оправдывают затраты, в то время как при степени 2 рекомендации менее убедительны. Буквенная степень отражает качество исследования:
• А – РКИ с несомненно надёжными результатами;
• B – РКИ с менее надёжными научными результатами;
• С – наблюдательные исследования или результаты РКИ, полученные на одной группе, эстраполируются на другие группы;
• С+ – работы с недостаточно надёжными результатами из-за малого объёма исследования или по другим причинам.
Таблица 2.1.
Классификация степени надёжности научного исследования
В этой классификации важную роль в оценке надёжности диагностического теста играет расчёт его чувствительности и специфичности. Чувствительность теста вычисляют по формуле:
ЧТ = ИП/(ИП + ЛО),
где ЧТ – чувствительность теста; ИП – истинно положительный результат теста; ЛО – ложноотрицательный результат теста.
– отношение числа больных с диагнозом, подтверждённым тестом (истинно положительный результат в числителе формулы), к реальному числу больных (истинно положительный + ложноотрицательный результат в знаменателе), поэтому его можно считать показателем истинной положительности теста (положителен при болезни).
Чувствительность теста
Специфичность теста вычисляется по формуле:
СТ = ИО/(ИО + ЛП),
где СТ – специфичность теста; ИО – истинно отрицательный результат; ЛП – ложноположительный результат.
Специфичность теста – отношение числа здоровых лиц с диагнозом, не подтверждённым в тесте (истинно отрицательный результат в числителе формулы), к реальному числу здоровых (истинно отрицательный + ложноположительный результат в знаменателе). Его в связи с этим можно считать показателем истинной отрицательности теста (отрицателен у здоровых).
Рассмотрим на примере доказательной эндокринологии, как в рамках градаций 1А—2С оценивают некоторые диагностические тесты.
Пример. Для обоснования диагностической гипотезы «болезнь Кушинга» необходима магнитно-резонансная томография (МРТ) гипофиза. Опухоль гипофиза при этом исследовании выявляют у 50–70 % обследованных больных. Если диаметр опухоли превышает 6 мм и биохимические тесты положительны (дексаметазоновые пробы, характерные для болезни Кушинга), то диагноз считают подтверждённым (диагностическая гипотеза превращается в окончательный диагноз), и больному назначают соответствующее лечение. Однако при МРТ характерные для опухоли гипофиза изменения выявляют у 10 % обследуемых, причём без каких-либо эндокринных болезней, что было показано в работе качества 1С:
У 100 здоровых добровольцев и 57 пациентов с болезнью Кушинга была проведена МРТ высокого разрешения. Полученные снимки было предложено независимо оценить трём специалистам, которым диагноз обследуемых не сообщали («ослепление»). При болезни Кушинга патологические изменения на магнитно-резонансных томограммах выявлялись в 56 %, хотя они и не коррелировали с тем, что было обнаружено в процессе хирургической операции на гипофизе. У здоровых добровольцев на томограммах изменения были обнаружены в 10 % случаев.
Итак, если опухоль гипофиза небольших размеров (менее 6 мм), достаточно высока вероятность, что она никакого отношения к болезни Кушинга не имеет. Более того, даже при болезни Кушинга только у половины больных на томограммах видны характерные для опухоли гипофиза изменения. Следовательно, при опухоли гипофиза малых размеров или отсутствии каких-либо изменений на магнитно-резонансных томограммах диагноз болезни Кушинга остаётся предположительным. В этих двух случаях для верификации болезни Кушинга рекомендуют проводить билатеральный забор крови из нижнего каменистого синуса (sinus petrosus inferior) для определения содержания адренокортикотропного гормона (АКТГ) (рис. 2.2). Концентрация АКТГ в крови, оттекающей от гипофиза в синус, должна быть существенно выше, чем в периферическом венозном русле, если опухоль гипофиза синтезирует АКТГ (что, собственно, и есть болезнь Кушинга).
Рис. 2.2. Венозная система головного мозга
При этой диагностической процедуре катетеры для забора крови размещают в левом и правом каменистых (петрозных) синусах, и уровень АКТГ одновременно измеряют в синусах и периферических венах до и после введения кортикотропин-рилизинг-гормона (КРГ), который стимулирует секрецию АКТГ. Полученные результаты интерпретируют в соответствии с данными, представленными в работе качества 1С+[2].
В этой работе было проведено проспективное исследование 281 больного синдромом Кушинга, у которых были проведены заборы крови из каменистых (петрозных) синусов. Заборы крови на АКТГ до и после введения КРГ выполнены у 262 больных. Диагноз верифицирован хирургически у 246 пациентов. При болезни Кушинга концентрация АКТГ в каменистых синусах превышает концентрацию АКТГ в периферических венах: (а) в базальном состоянии (без введения КРГ) – в 2 раза; (б) после стимуляции КРГ – в 3 раза.
Чувствительность для (а) составляет 95 %, для (б) – 100 %, в то время как специфичность – 100 % для обоих тестов. Градиент >1,4 между левым и правым каменистыми синусами позволяет латерализовать поражение.
Рутинное использование забора крови на АКТГ из каменистых синусов вызывает возражения ввиду сложности процедуры, особенно в случае небольшого размера «немых» опухолей гипофиза, которые обычно не требуют каких-либо вмешательств. В связи с этим был предложен более простой альтернативный метод исследования – забор крови из яремной вены – в работе качества ниже, чем 1С+[3].
В исследование включены 74 пациента с хирургически доказанной болезнью Кушинга и 14 больных с эктопическим АКТГ-синдромом (хирургически верифицирован у 11 больных, оккультный – у 3 человек). В случае забора крови на АКТГ из каменистого (петрозного) синуса чувствительность теста оказалась 98 %, а специфичность – 100 %. При заборе крови из яремной вены чувствительность – 83 %, специфичность – 100 %. В связи с этим рекомендовано при ограниченных технических возможностях для скрининговой диагностики брать кровь на АКТГ из яремной вены, при отрицательном результате и ненулевой вероятности болезни Кушинга – верифицировать диагноз забором крови из каменистого синуса.
Как видно из примера, степень надёжности исследований не превышает 1С+, что характерно для диагностических тестов: в литературе трудно найти исследование с надёжностью 1А. Отсюда очевидно, что качество диагностики болезни определяется не только адекватным выбором теста, соответствующего предполагаемому диагнозу, но и надёжностью самого теста, которая обычно не наивысшая с точки зрения доказательной медицины.
В 1989 г. была предложена иерархия надёжности (доказательности) представляемых в научной литературе данных[4], в которой отдельно рассматривают надёжность и качество научного исследования (табл. 2.2).
Таблица 2.2.
Классификация результатов научных исследований по отношению к степени их доказательности
Пример использования этой классификации – характеристика ведущих научных работ по влиянию снижения массы тела на проявления сахарного диабета 2-го типа (табл. 2.3). С помощью этой таблицы легко определить, какие научные рекомендации при сахарном диабете 2-го типа тучных целесообразны, а какие сомнительны.
Таблица 2.3.
Оценка научных работ, посвящённых влиянию снижения массы тела при сахарном диабете 2-го типа на его литературе течение[5]
Chalmers и соавт.[6] предложили классификацию надёжности научных исследований, в которой метаанализу отведено ведущее место (табл. 2.4).
Таблица 2.4.
Иерархия доказательности исследования, предложенная Chalmers и соавт.
Реальный пример демонстрирует проблему практического использования этой классификации. В частности, какое следует выносить суждение, если в одних метааналитических работах показано, что лечение росиглитазоном увеличивает риск сердечно-сосудистых болезней, а в других – нет (рис. 2.3)? Можем к этой проблеме подойти арифметически: чем в большем количестве метааналитических работ это установлено, тем достовернее заключение. В трёх метаанализах было показано, что росиглитазон увеличивает сердечно-сосудистый риск, а только в одном – что не увеличивает, следовательно, росиглитазон увеличивает риск сердечно-сосудистых болезней (см. рис. 2.3). С другой стороны, совершенно очевидно, что Lago и соавт. построили свой единичный метаанализ на очень доброкачественно проведённых РКИ, – в противоположность Cobitz, Nissen и Sign, которые исключили из своего анализа именно эти работы. Таким образом, как было указано выше, от выбора исследований в метаанализ зависит окончательный результат. Научное диабетологическое сообщество, столкнувшись с этой проблемой, раскололось на сторонников повышения сердечно-сосудистого риска на фоне лечения росиглитазоном и его противников. Однако в конечном итоге окончательное решение – исключить росиглитазон из клинической практики – было вынесено в 2010 г. на основании решения небольшой научной группы американских экспертов «Управления по лекарствам и продуктам» (FDA – от англ. Food and Drug Administration, Федеральная служба США, контролирующая производство, хранение и реализацию пищевых продуктов, лекарственных препаратов и косметических средств) банальным голосованием.