33
связь расходов на учащихся средней школы и их баллов по тесту SAT Этот пример взят из: H. Wainer, Visual Revelations: Graphical Tales of Fate and Deception from Napoleon Bonaparte to Ross Perot. Нью-Йорк: Copernicus/Springer-Verlag, p. 93. Оригинал был опубликован в Forbes (May 14, 1990). Конечно, есть и другие переменные. Увеличение расходов было подсчитано в текущей валюте или с учетом инфляции? Для чего был выбран временной интервал 19801988 и был ли бы он другим при других обстоятельствах?
34
С помощью корреляции можно также оценить До сих пор не угасает полемика: использовать r или r2? В защиту первого см. DAndrade, R., & Dart, J. (1990). Интерпретация r в сравнении с r2, или почему учитываемый процент расхождения является простым измерением размера эффекта. Journal of Quantitative Anthropology, 2, 4759. Ozer, D. J. (1985). Корреляция и коэффициент детерминации. Psychological Bulletin, 97(2), 307315.
35
Услуги, оказываемые Planned Parenthood Конгрессмен использует вводящий в заблуждение график, чтобы очернить Planned Parenthood, msnbc.com. В Politifact подробно изучили это дело и сравнили данные, указанные между конечными точками и добавочной контекстуальной информацией, которая сопровождала обычную критику, направленную на график. См. https://perma.cc/P8NY-YP49.
36
презентации по продажам iPhone. http://qz.com/122921/the-chart-tim-cook-doesnt-want-you-to-see/; http://www.tekrevue.com/tim-cook-trying-prove-meaningless-chart/.
37
примеры странных совпадений корреляций http://www.tylervigen.com/spurious-correlations.
38
представил Рэнделл Манро в своем веб-комиксе xkcd. https://xkcd.com/552/.
39
когда ваша визуальная система сталкивается с логической В основе этого примера лежит материал из Huff. https://xkcd.com/552/.
40
Любая модель поведения потребителей Почти дословная цитата из De Veaux, R. D., & Hand, D. J. (2005). How to lie with bad data. Statistical Science, 20(3), 231238, p. 232.
41
самого крупного конкурента Colgate Выражаю благодарность своей студентке Вивиан Гу за этот пример. Derbyshire, D. (2007, Jan. 17). Colgate gets the brush off for «misleading» ads. The Telegraph. Retrieved from http://www.telegraph.co.uk/news/uknews/1539715/Colgate-gets-the-brush-off-for-misleading-ads.html.
42
Представители кабельной сети C-SPAN уверяют http://www.c-span.org/about/history/.
43
не означает, что его смотрит хотя бы один человек. Нильсен сообщает, что в среднем американцы ловят 189 каналов, но смотрят только 17 из них. https://arstechnica.com/business/2014/05/on-average-americans-get-189-cable-tv-channels-and-only-watch-17/
44
объемах воды, которая используется в городе Ранчо-Санта-Фе Boxall, B. (2014, Dec. 2). Ранчо-Санта-Фе был назван городом с самым высоким в штате потреблением воды. Los Angeles Times. Lovett, I. (2014, Nov. 29). «Where grass is greener, a push to share droughts burden». New York Times, http://www.nytimes.com/2014/11/30/us/where-grass-is-greener-a-push-to-share-droughts-burden.html.
45
сегодня путешествия на самолете стали безопаснее, чем когда-либо. http://www.flightsafety.org; Grant, K. B. (2014, Dec. 30), Deadly year for flying but safer than ever, http://www.cnbc.com/id/102301598.
46
по законам физики Для изначальной температуры в 155 градусов по Фаренгейту формула будет такой: f(t)=80e0,08t+75.
47
телевизионный канал C-SPAN доступен в 100 миллионах домов Bedard, P. (2010, June 22). «Brian Lamb: C-SPAN now reaches 100 million homes». U.S. News & World Report.
48
90 % населения земного шара живут на расстоянии не больше 40 километров. Huff. Указ. соч., с. 48.
49
в 2010 году погибло 3482 американских военнослужащих. https://www.cbo.gov/sites/default/Files/113th-congress-2013-2014/workingpaper/49837-Casualties_WorkingPaper-2014-08_1.pdf.
48
90 % населения земного шара живут на расстоянии не больше 40 километров. Huff. Указ. соч., с. 48.
49
в 2010 году погибло 3482 американских военнослужащих. https://www.cbo.gov/sites/default/Files/113th-congress-2013-2014/workingpaper/49837-Casualties_WorkingPaper-2014-08_1.pdf.
50
общего числа военнослужащих, а их 1 431 000 человек http://www.census.gov/prod/2011pubs/12statab/defence.pdf.
51
количество смертей в 2010 году составило http://www.cdc.gov/nchs/fastats/deaths.htm.
52
Население Соединенных Штатов весьма разнообразно За основу взят пример из Huff. Указ. соч., с. 83.
53
увеличилось число врачей Выражаю благодарность своей студентке Александре Гелертер за этот пример. Barnett, A. (1994). How numbers are tricking you. Взято с сайта: http://www.sandiego.edu/statpage/barnett.htm.
54
Эти нюансы часто говорят сами за себя. Взято из Best.
55
существует шесть разных индексов Davidson, A. (2015, July 1). The economys missing metrics. New York Times Magazine.
56
В газете USA Today за июль 2015 года сообщалось, что уровень безработицы упал Shell, A. (2015, July 2). Wall Street weighs Feds next move after jobs data. USA Today Money.
57
называли свою причину очевидного снижения Schwartz, N. D. (2015, July 3). Jobless rate fell in June, with wages staying flat. New York Times, Bl.
58
средний коэффициент результативности отбивания 50 лучших игроков Главной лиги бейсбола в сезоне 2015 года. Статистика с http://mlb.mlb.com/stats/sortable.jsp#elem=[object+Object]&tab_level=child&click_text=Sortable+Player+hitting&game_type=%27R%27&season=2015&season_type=ANY&league_code=%27MLB%27§ionType=sp&statType=hitting&page=l&ts=1457286793822&playerType=QUALIFIER&timefrarne=.
59
В 2013 году смерть в основном наступала по следующим причинам http://www.cdc.gov/nchs/fastats/leading-causes-of-death.htm.
60
не имеют ничего общего с расовыми категориями Все это чисто гипотетически.
61
Другая сложность: вам хочется, чтобы опрашиваемые были разного возраста Huff. Указ. соч., с. 22.
62
71 % каких именно британцев? Huff. Указ. соч., с. 22.
63
примеряя маску этакого бунтаря, просто чтобы узнать, каково это шокировать и бросать вызов. Много лет назад чикагский журналист Майк Ройко подбивал читателей солгать во время опроса на выходе с избирательного участка в надежде, что неточные данные, равно как и нежелание выглядеть глупо в глазах общественности, положат конец существующей практике, когда телекомментаторы называют результаты голосования до того, как будут подсчитаны все голоса. У меня нет информации, сколько человек солгали во время опроса после прочтения колонки Ройко, но тот факт, что такие опросы на выходе с избирательного участка до сих пор существуют, говорит о том, что, видимо, недостаточно.
64
цену, которую вы платите, чтобы не выслушивать каждого человека http://www.aapor.org/Education-Resources/Election-Polling-Resources/Margin-of-Sampling-Error-Credibility-Interval.aspx.
65
Обратите внимание, что получившиеся промежутки пересекаются. Это хорошее, проверенное правило, но в некоторых случаях такой быстрый метод дает неточные результаты. См. Schenker, N., & Gentleman, J. F. (2001). On judging the significance of differences by examining the overlap between confidence intervals. American Statistician, 55(3), 182186.
66
В 5 случаях из 100 Я специально здесь не делаю различия между частотным подходом к вероятностям и байесовским методом, об этом различии поговорим в части 2.
67
формулу, по которой можно подсчитать погрешность Для больших совокупностей доверительный интервал в 95 % можно оценить как . Чтобы получить доверительный интервал в 99 %, умножьте на 2,58 вместо 1,96. Да, интервал получается больше, когда вы более уверены (что по-своему логично; чем больше вы хотите быть уверены в том, что предлагаемый вами диапазон включает в себя истинные значения, тем больший диапазон вам нужен). Для совокупностей поменьше сначала нужно вычислить стандартную ошибку. Вот формула:
Ширина доверительного интервала в 95 % тогда получается ±2 × стандартная ошибка. Например, если вы составили выборку из 50 эстакад в большом городе и обнаружили, что 20 % из них требуется ремонт, вы вычисляете стандартную ошибку по этой формуле:
Таким образом, получается, что ширина вашего 95 %-ного доверительного интервала равна ±2 × 0,057 = ±0,11, или ±11 %. Следовательно, с вероятностью 95 % в этом городе 20 % ± 11 % эстакад нуждаются в ремонте. В выпуске новостей репортер может сказать, что исследование показало: 20 % эстакад нуждаются в ремонте, с погрешностью в 11 %. Чтобы сделать вашу оценку еще более точной, вам нужна выборка побольше. Если вы изучите 200 эстакад (предположим, вы получите ту же цифру в 20 %), ваша погрешность снизится примерно до 6 %.
68
С не указанной в докладе погрешностью Википедия.
69
это общепринятое объяснение было неверно. Lusinchi, D. (2012). «President» Landon and the 1936 Literary Digest poll: were automobile and telephone owners to blame? Social Science History, 36(1), 2354.
70
во время формирования выборки были допущены грубые ошибки. Clement, S. (2013, June 4). Компания Gallup объясняет, что же случилось в 2012 году. Washington Post. https://www.washingtonpost.com/news/the-fix/wp/2013/06/04/gallup-explains-what-went-wrong-in-2012/. http://www.gallup.com/poll/162887/gallup-2012-presidential-election-polling-review.aspx.
71
подсчитать, сколько в банке мармеладных конфет http://www.ropercenter.uconn.edu/support/polling-fundamentals-total-survey-error/.
72
какого рода журналы читают люди. В основе этого примера лежит материал из: Huff, цитируемое издание, с. 16.
73
оценивается по шкале Глисона Это определение было приведено дословно с http://www.cancer.gov/publications/dictionaries/cancer-terms?cdrid=45696. Дата просмотра 20 марта 2016 г.
74
в их измерениях был обнаружен недочет. Jordans, F. (2012, Feb. 23). CERN researchers find flaw in faster-than-light measurement. Christian Science Monitor. http://www.csmonitor.com/Science/2012/0223/CERN-researchers-find-flaw-in-faster-than-light-measurement.
75
Во время переписи населения США в 1960 году Из De Veaux, R. D., & Hand, D. J. (2005). How to lie with bad data. Statistical Science, 20(3), 231238, p. 232. Они цитируют Kruskal, W. (1981). Statistics in society: problems unsolved and unformulated, journal of the American Statistical Association, 76(375), 505515, и Coale, A. J., & Stephan, F. F. (1962). The case of the Indians and the teen-age widows. Journal of the American Statistical Association, 57, 338347.