Путеводитель по лжи [Критическое мышление в эпоху постправды] - Дэниел Левитин 12 стр.



Обманчивое разделение на группы

В противоположность объединению выборок можно использовать разделение на группы, чтобы заставить кого-то поверить в то, чего на самом деле нет. Чтобы, например, заявить, что X это главная причина Y, мне нужно просто разделить все остальные причины на более мелкие подгруппы.

Предположим, вы производите очистители воздуха и проводите кампанию, чтобы доказать, что респираторные заболевания основная причина смерти в Соединенных Штатах, значительно превосходящая по частоте, например, заболевания сердечно-сосудистой системы или рак. Если говорить честно, то на сегодняшний день основная причина смерти в США болезни сердца. По данным Центров по контролю и профилактике заболеваний в стране в 2013 году смерть в основном наступала по следующим причинам[59]:

болезни сердца: 611 105;

рак: 584 881;

хронические заболевания нижних дыхательных путей: 149 205.

Даже если отбросить тот неприятный факт, что домашние очистители воздуха не сильно защищают от хронических респираторных заболеваний, эти данные не станут убедительным доводом для вашей компании. Вам бы, конечно, хотелось спасать более 100 тысяч жизней в год, но тот факт, что вы сумели справиться с третьей по важности причиной смерти, не сильно поможет вашей рекламной кампании. Хотя постойте! Ведь болезнь сердца это не одно заболевание, их несколько:

острая ревматическая лихорадка и хроническое ревматическое заболевание сердца: 3260

гипертоническая болезнь сердца: 37 144

острый инфаркт миокарда: 116 793

сердечная недостаточность: 65 120

И так далее. Подобным же образом разбейте на подгруппы виды рака и дело в шляпе! Заболевания нижних дыхательных путей становятся причиной смерти номер один. И вот вы уже заработали свой бонус. Некоторые производители продуктов питания использовали эту стратегию, чтобы скрыть количество жиров и сахаров, содержащихся в их продуктах.

Как собирают данные

Помните, во вступлении к этой части книги было написано, что именно люди собирают статистические данные. Это они решают, что считать и как потом быть с результатами. В процессе сбора данных может возникнуть множество ошибок и перекосов, а это, в свою очередь, может привести миллионы людей к неправильным выводам. И хотя большинство из нас никогда не будут собирать данные, научиться критически думать об этом довольно легко и доступно каждому.

Данные получают самыми разными способами: изучая записи (например, касающиеся рождаемости и смерти, предоставленные государственным ведомством, больницей или церковью), проводя исследования и опросы, делая наблюдения (например, считая электрические автомобили, проносящиеся мимо на пересечении Основной улицы с Третьей) или путем умозаключений (если продажи подгузников ползут вверх, значит, вероятно, растет уровень рождаемости). Перекосы, неточности и откровенные ошибки могут появиться на любом этапе. Важно время от времени задаваться вопросами: «А мы и правда можем узнать об этом?» или «Откуда им это известно?»

КОНЕЦ ОЗНАКОМИТЕЛЬНОГО ОТРЫВКА

Данные получают самыми разными способами: изучая записи (например, касающиеся рождаемости и смерти, предоставленные государственным ведомством, больницей или церковью), проводя исследования и опросы, делая наблюдения (например, считая электрические автомобили, проносящиеся мимо на пересечении Основной улицы с Третьей) или путем умозаключений (если продажи подгузников ползут вверх, значит, вероятно, растет уровень рождаемости). Перекосы, неточности и откровенные ошибки могут появиться на любом этапе. Важно время от времени задаваться вопросами: «А мы и правда можем узнать об этом?» или «Откуда им это известно?»

Формирование выборки

Астрогеологи собирают образцы камней с лунной поверхности они не исследуют Луну полностью. Исследователям не нужно разговаривать с каждым конкретным избирателем, чтобы понять, кто из кандидатов выбился в лидеры гонки, или вести подсчет всех, кто заходит в приемный покой, чтобы понять, как долго пациенту приходится ждать приема. Это было бы непрактично и слишком дорого. Специалисты используют выборки и на их основании строят оценки. Если выборки сделаны правильно, то оценка может быть в высшей степени точной. В случае с подсчетом голосов, например, узнать, каковы настроения в стране (а это примерно 234 миллиона человек в возрасте старше 21 года), можно, опросив 1067 человек. Биопсии 1/1000 органа достаточно для диагностирования рака.

Однако надо помнить, что выборка должна быть репрезентативной. А это бывает в случае, когда каждый человек или предмет в изучаемой группе имеет равные шансы быть выбранным. Если это не так, то ваша выборка окажется нерепрезентативной (перекошенной). Если рак обнаружен только в одной части органа, а вы делаете пробы на другой, то он не будет диагностирован. Если же он затронул лишь малую часть органа, а вы взяли 15 проб в этом месте, то вы можете сделать вывод, что весь орган покрыт раковыми клетками, хотя это совсем не так.

Мы не всегда знаем наперед даже со всеми возможностями биопсии или опросами общественного мнения,  в каком интервале меняется изучаемый показатель. Если бы все элементы в совокупности были одинаковыми, то для выборки было бы достаточно одного из них. Будь у нас множество генетически идентичных людей с одинаковым внутренним миром и жизненным опытом, мы могли бы узнать все что угодно обо всех, просто изучив одного из них. Но каждая группа неоднородна, ее члены отличаются друг от друга, поэтому формировать выборку нужно очень аккуратно, чтобы точно знать, что мы охватили все возможные различия, которые имеют значение (потому что не каждое из них имеет значение). Например, мы знаем: если лишить человека кислорода, он умрет. В этом отношении люди друг от друга не сильно отличаются (хотя и отличаются по времени, которое они могут протянуть без кислорода). Но если я хочу узнать, сколько килограммов человек может поднять в технике жима лежа, начинаются различия придется измерить показатель у большой группы самых разных людей, чтобы определить диапазон его изменения и стабильное среднее арифметическое. Я бы хотел опросить высоких и низких, полных и худых, мужчин и женщин, детей, бодибилдеров, домоседов, людей, принимающих анаболики, и трезвенников. Есть, наверное, и другие факторы, которые имеют значение, например сколько часов человек спал накануне тестирования, сколько времени прошло с момента последнего приема пищи, в гневе он или спокоен и т. д. Кроме того, есть вещи, которые мы вообще не считаем важными: кто был в тот день авиадиспетчером в аэропорту Сен-Юбер в Квебеке; обслужили ли случайно взятого посетителя в ресторане Абердина в тот день вовремя или нет. Это влияет на другие показатели, которые мы исследуем (латентный сексизм в индустрии авиаперевозок; удовлетворение посетителей в ресторанах Северо-Западного региона), но не на жим лежа.

В задачу статистика входит составление списка того, что имеет значение для получения репрезентативной выборки. Следует избегать наметившейся тенденции, когда переменные выбираются такие, чтобы было легко их идентифицировать или собирать по ним данные,  ведь бывает так, что значимые показатели не очевидны или их сложно измерять. Как говорил Галилео Галилей, следует измерять то, что измеримо, и делать измеримым то, что таковым не является. Некоторые наиболее творческие прорывы в науке оказались возможны потому, что были предложены способы измерить важные показатели, которые раньше измерять не умели.

КОНЕЦ ОЗНАКОМИТЕЛЬНОГО ОТРЫВКА

Однако даже измерение и попытки контролировать переменные, о которых вы знаете, могут стать проблемой. Предположим, вы хотите изучить существующие на данный момент мнения об изменении климата в Соединенных Штатах. Вам выделили небольшую сумму денег, чтобы вы наняли помощников и купили статистическую программу для вашего компьютера. Так случилось, что вы живете в Сан-Франциско и поэтому решаете провести исследование здесь. У вас уже сложности: Сан-Франциско нерепрезентативный город для всей остальной части Калифорнии, не говоря уже о Соединенных Штатах в целом. Понимая это, вы принимаете решение провести свой опрос в августе, поскольку, по результатам исследований, это самый пик туристического сезона и люди со всей страны едут в Сан-Франциско, так что (думаете вы) вы сможете изучить все многообразие мнений.

Но подождите: можно ли считать тех, кто приедет в Сан-Франциско, репрезентативной выборкой? Ведь вы будете учитывать только людей, которые могут себе позволить поездку, и тех, кто хочет провести свои каникулы в городе, вместо того чтобы, скажем, ехать в национальный парк (может даже случиться так, что вы невольно отдадите предпочтение либералам, так как Сан-Франциско известен своим либерализмом).

И тогда вы решаете, что не можете позволить себе исследовать мнение всех американцев и правильнее будет сконцентрироваться на жителях Сан-Франциско. Вы отправляете своих помощников на Юнион-сквер, где они будут останавливать прохожих и задавать им интересующие вас вопросы. Вы проводите инструктаж: вам нужны люди разных возрастов, этнической принадлежности, по-разному одетых, с татуировками и без них короче говоря, вас интересует срез общества, самые его разные представители. Но у вас по-прежнему проблема: ведь вы вряд ли встретите на улице людей, прикованных к постели, молодых мам с маленькими детьми, тех, кто работает по сменам и отсыпается днем, а также сотни тысяч жителей Сан-Франциско, которые по каким-то причинам не придут в тот день на Юнион-сквер в ту часть города, которая славится дорогими магазинами и ресторанами. Если вы отправите своих помощников в район Мишн-дистрикт, это поможет решить проблему социально-экономического статуса опрашиваемых, но не решит остальных ваших проблем. Выборка должна пройти такой тест: все ли представители группы имеют равные шансы попасть в нее? Очевидный ответ: нет.

В таком случае вы делаете стратифицированную случайную выборку. Это значит, что вы делите всю группу на страты или подгруппы, представляющие интерес, и набираете людей из них, соблюдая пропорцию по отношению к совокупности. Если вы проведете исследование, касающееся изменения климата, и обнаружите, что мнения не имеют ничего общего с расовыми категориями, вам не нужно будет создавать группы, основанные на расе[60]. К тому же делать какие-то предположения насчет расы может быть затруднительно или оскорбительно а что вы будете делать с людьми смешанной расы? Поместите их в одну категорию или другую, а может, создадите для них отдельную? И что же потом? Появится категория для американцев, рожденных в браках, где один родитель афроамериканец, а второй представитель европейского типа или латиноамериканец, в браках, где смешана восточноазиатская и иранская кровь, и т. д.? В таком случае категории могут стать слишком узкими, и это только затруднит ваше исследование. Другая сложность: вам хочется, чтобы опрашиваемые были разного возраста, но ведь бывает, что люди стесняются говорить, сколько им лет[61]. Вы можете выбирать тех, кому явно за 40 или явно меньше, но при этом пропустите тех, кому около 38 или кто едва разменял пятый десяток.

Чтобы решить проблему с теми, кто отсутствует в течение дня, вы просто можете ходить по домам и разговаривать с каждым, кто откроет дверь. Но, опять же, если вы будете так ходить в дневное время, то упустите тех, кто на работе. Если вы будете ходить так по вечерам, то не учтете любителей клубной жизни, тех, кто работает посменно, тех, кто ходит в церковь на ночные службы, киноманов и тех, кто часто ходит в рестораны. А как, создав страты, вы получите случайную выборку в рамках ваших подгрупп? Все вышеописанные проблемы актуальны и по сей день выделение подгрупп не решает той проблемы, что даже в рамках подгруппы вам нужно будет получить репрезентативное разнообразие других факторов, которые могут повлиять на ваши данные. Видимо, нам придется собрать все имеющиеся на Луне камни, чтобы провести качественный анализ пород.

Назад Дальше