Недавно в серии «Библиотека Гутенберга» издательства «Аст» вышла книга Леонида Подымова «Псевдонаука. Разоблачение обмана и заблуждений». Сегодня мы публикуем отрывок из этой книги, посвящённый статистике. Отрывок любезно предоставлен издательством.
Подкреплены ли ваши доказательства обширной статистикой? Статистика может оказаться как хорошим подтверждением, так и хорошим способом ввести в заблуждение.
Чем больше однотипных случаев будет рассмотрено, тем более достоверными будут наши выводы.
Как строго научно доказать, что курение опасно доля здоровья и, в частности, приводит к раку лёгких? Такую задачу поставили перед собой двое британских эпидемиологов Остин Бредфорд Хилл и Ричард Долл в начале 1950-х годов. На тот момент все предположения о вреде курения не имели под собой доказательной базы, и в медицинском сообществе по этому вопросу не было единодушия. Более того, курение рекламировалось как нормальная «здоровая» привычка.
Исследователи столкнулись с рядом затруднений. Для наглядности результатов необходимо было наблюдать большую группу здоровых людей, отслеживая состояние их здоровья на протяжении десятилетий (планировалось вести исследование 50 лет). Испытуемые должны находиться в схожих условиях жизни и труда, иметь приблизительно схожий доход. Также это должны быть люди надёжные и аккуратные, осознающие необходимость регулярно тратить время на отчёты на протяжении долгих лет. Кроме того, было бы удобно, если бы часть испытуемых была ярыми курильщиками, а ещё часть противниками курения — для усиления возможного эффекта. Озарение пришло к Хиллу внезапно, во время игры в гольф: в качестве подопытных нужно использовать своих же коллег — врачей.
В 1951 году началось знаменитое исследование Хилла и Долла, которое впоследствии получило название British Doctors Study («Исследование британских врачей»). Авторы разослали приглашение к участию всем зарегистрированным в Великобритании врачам-мужчинам, на что было получено 34 349 ответов. Эти люди и стали участниками эксперимента. Участники получили анкеты для заполнения. Следующие анкеты были разосланы соответственно в 1957, 1966, 1971, 1978, 1991 и 2001 годах.
Сенсационные результаты появились уже к 1954 году. От рака лёгких умерло 36 человек — все оказались ярыми курильщиками. Закономерность была столь явна и очевидна, что поначалу авторов эксперимента даже заподозрили в недобросовестности. Но результаты дальнейших наблюдений переубедили даже самых закоренелых скептиков. По результатам работы Хилла и Долла было убедительно показано, что курение сокращает жизнь в среднем на 10 лет, более половины курильщиков умирает от болезней, связанных с курением (в возрасте от 35 до 69 лет умерло примерно 43% курильщиков и 15% некурящих). Также попутно было выяснено, что курение приводит и к инфаркту миокарда. Если в случае отдельно взятого испытуемого мы можем предполагать всякое: причины болезней и преждевременной смерти могут быть самыми разнообразными, то наблюдение за тридцатью тысячами людей практически устраняет влияние случайных факторов.
В 1954 году были опубликованы результаты аналогичного независимого исследования, с охватом в 190 тысяч американцев. Выводы были также неутешительные (вспомним про независимые подтверждения). Подоспели исследования другого характера: опыты на мышах показали канцерогенность табачного дыма (вспомним про подтверждения альтернативными методиками).
«Эти изобличающие доказательства потрясли Долла не меньше всех остальных: „Я сам не ожидал, что курение окажется такой серьёзной проблемой. Если бы я тогда держал пари на деньги, то, пожалуй, поставил бы на что-то, связанное с дорогами и автомобилями“. Долл и Хилл приступали к своему исследованию без прицела на конкретный результат, они были попросту любопытны и хотели докопаться до истины. Вообще, хорошо продуманные научные испытания не затеваются с расчётом на ожидаемый исход, напротив, они должны быть честными и прозрачными, а тем, кто их проводит, следует быть готовыми к любым итогам».
Эксперимент Хилла и Долла стал новаторским и в плане научной методологии. Была показана [TBS_TOOLTIP placement=»top» title=»На этом наука не остановилась. Дальнейшие исследования выявили множество других вредоносных действий курения http://contacttobinfo.narod.ru/books/ tob-health/81-97.PDF» style=»border: 1px solid #ddd; padding: 3px;»]важность медицинской статистики для здравоохранения[/TBS_TOOLTIP]. Благодаря Хиллу и Доллу, а также последовавшим за ними независимым исследованиям с аналогичными результатами, накопившийся массив информации оказался столь очевиден, показателен и бескомпромиссен, что долго сопротивляться ему не смогли даже могущественные табачные корпорации — они постепенно начали сдавать позиции. Вот это я называю силой доказательств!
Вы всё ещё курите? Не пора ли задуматься?
Махинации со статистикой
Обычный человек плохо разбирается в статистике. Этому есть ряд причин. Во-первых, теория вероятности и математическая статистика довольно сложны. Конечно, базовые понятия статистики вполне под силу для понимания среднему по успеваемости школьнику, но и они часто бывают контринтуитивны.
— Какова вероятность встретить динозавра на улице?
— 50 процентов. Либо встретишь, либо нет.
Прикладные вопросы математической статистики и теории вероятности мало изучают в школе. Даже в технических вузах часто делается акцент на скучной теории и абстрактных задачах (вроде раскладывания цветных шаров по коробкам), но не на жизненных примерах. А зря. Понимание статистических закономерностей позволяет разбираться в важных вопросах и не поддаваться на разные шарлатанские уловки.
Ваш друг десять раз подряд подбросил монетку и записал результаты на листке бумаги («О» — орёл, «Р» — решка). Какой из трёх вариантов результата наиболее вероятен?
1. ОРОРОРОРОР
2. ОРРОРООООР
3. РРРРРРРРРР
Рискну предположить, что вы выбрали второй вариант. Да, действительно, он кажется чем-то «более естественным» для результатов броска монеты. А вот выпадение решки десять раз подряд нам покажется некоей махинацией либо мистикой. На самом же деле все три варианта имеют одинаковую очень маленькую вероятность (её даже можно рассчитать: 1 к 210). И это легко проверить: попытайтесь воспроизвести любую из них. Подобных хитрых трюков теория вероятности и математическая статистика знают очень много.
Статистика — замечательный инструмент для анализа информации и различных исследований. Но, как и любой другой инструмент, её можно использовать как во благо, так и во вред. Поскольку для многих людей фраза «по статистике…» звучит довольно убедительно, мы часто сталкиваемся с различными статистическими манипуляциями. Искажённое восприятие информации может происходить вследствие: а) незнания основ статистики; б) неучтённых факторов (ошибочная оценка); в) намеренной фальсификации.
«Средняя зарплата по вузу — 30 тысяч рублей», — заявляет ректор института на собрании преподавательского состава. Кто-то иронично улыбается, кто-то с грустью вспоминает в расчётном листе свои 12 тысяч 500 рублей. И у всех один вопрос: откуда ректор взял эти цифры?
Ответ кроется за загадочным словом «средняя». Вряд ли имеет смысл откровенно лгать, когда можно немного поиграть с цифрами. При подробном рассмотрении окажется, что в расчёт включены все заработки, включая доход от большого бизнеса нескольких самых богатых сотрудников вуза, занимающих высокие административные посты. Имело бы смысл, разбить доход по группам с указанием количества сотрудников, получающих тот или иной доход. Но цифра в 30 тысяч, согласитесь, звучит убедительнее (особенно, если её подавать в отчёте для Министерства образования и науки).
Закон больших чисел
В Москве живёт 12 миллионов человек. Стало быть, шанс один на миллион выпадает в ней по 12 раз в день.
«Учёные признают своё бессилие перед проблемой возникновения жизни. Вероятность самопроизвольного зарождения жизни на Земле столь уничтожающе мала, что даже самые закоренелые скептики сдаются: для зарождения жизни необходима внешняя разумная причина», — примерно так выглядит типичный аргумент антиэволюционистов по вопросу происхождения жизни. Но на самом деле низкая вероятность зарождения жизни — не повод отказываться от [TBS_TOOLTIP placement=»top» title=»Абиогенез (от греческого а — отрицательная частица, bíos — жизнь и génesis — происхождение) — теория происхождения живых существ из веществ неорганической природы.» style=»border: 1px solid #ddd; padding: 3px;»]теории абиогенеза.[/TBS_TOOLTIP]
И вот почему. Во-первых, у нас нет достаточного количества данных, чтобы точно оценить вероятность абиогенного возникновения жизни. Вполне возможно, это не такое маловероятное событие, как нам кажется.
Во-вторых, сколько подходящих мест для появления жизни нам нужно рассмотреть? Давайте оценим количество планет в наблюдаемой Вселенной. По оценкам учёных, только в нашей Галактике содержится от 200 до 400 миллиардов звёзд. Возьмём для среднестатистической галактики условную низкую оценку — 100 миллиардов звёзд. Количество галактик в известной Вселенной тоже не меньше 100 миллиардов. Число планет в звёздных системах сопоставимо с количеством звёзд. Возьмём нижнюю оценку: «Одна звезда — одна планета» (на самом деле у многих звёзд по нескольку планет). Таким образом, примерное количество планет в известной нам Вселенной равно 100 миллиардов умножить на 100 миллиардов (100000000000 × 100000000000 = 1022), то есть десять секстиллионов.
Теперь пусть вероятность зарождения жизни составляет «один шанс на миллион». Значит, жизнь должна зародиться на одной миллионной части всех планет Вселенной, то есть число планет с жизнью равно одной миллионной, умноженной на десять секстиллионов. Мы получим 1016 планет или десять квадриллионов (единица с шестнадцатью нулями). Сложно представить это число, это очень и очень много. При такой оценке даже в нашем Млечном Пути должно существовать минимум 200 тысяч обитаемых планет (одна миллионная умножается на 200 миллиардов).
Хорошо, допустим, мы погорячились. Пусть шанс зарождения жизни «один на миллиард». Тогда обитаемых планет в нашей Галактике должно быть целых двести. А во всей наблюдаемой Вселенной — 1013 или десять триллионов. И это мы взяли заниженные оценки числа планет и рассматриваем только наблюдаемую Вселенную. А за границей наблюдения тоже есть галактики, звёзды и планеты. Даже если учесть тот факт, что для зарождения жизни земного типа подходят не все планеты, даже если землеподобные планеты составляют 5—10% от всего количества — всё равно получается огромное число. Так что всё у учёных хорошо, оптимизм можно не терять. Закон больших чисел в действии: даже маловероятное событие при огромном количестве повторений наверняка случится. Из секстиллионов планет, подходящих для зарождения жизни, по крайней мере на одной жизнь точно зародилась. Наверное, есть и другие.
Похожая ситуация обстоит с так называемым предвидением. Мы часто слышим истории про «вещие сны». И для многих людей это является доказательством существования каких-то незримых тонких сил или чего-то непознанного и сверхъестественного. Человеку снится сон, что его завтрашняя поездка в соседний город закончится автокатастрофой. Сон настолько яркий, что он передумывает ехать и сдаёт автобусный билет в кассу, а через пару дней узнаёт, что его автобус попал в серьёзную аварию. Может быть, тонкие миры и сверхъестественные предупреждения существуют, но рассмотрим и более рациональное объяснение.
В среднем за 70 лет жизни человек спит около 23 лет. Из этих 23 лет — восемь лет — это сновидения. Человек спит каждый день, и, допустим, за один акт сна может увидеть 5—10 ярких образов-сновидений. Для простоты будем считать, что каждый человек в среднем за время сна видит ровно один отчётливый сон. Из семи с половиной миллиардов людей, живущих на Земле, выделим пять миллиардов спящих и помнящих сны (остальные 2 миллиарда — маленькие дети, сильно пожилые и немощные люди, а также больные и люди в одиночестве, которым не с кем поделиться своими предвидениями). Значит, мы получим 5 миллиардов сновидений за сутки. Теперь пусть шанс увидеть «вещий сон» как результат обычного случайного совпадения составляет один на миллион. Тогда каждый день на Земле должно случаться [TBS_TOOLTIP placement=»top» title=»Заметим, что в преддверии какого-то важного мероприятия, например, дальней поездки, человек может сильно волноваться, что вполне может сказаться и на тематике его сна. Очевидно, в таком тематическом сне с человеком может случиться всякое. Так что вероятность «вещего сна» будет выше.» style=»border: 1px solid #ddd; padding: 3px;»]не менее 5000 вещих снов[/TBS_TOOLTIP]. Современные технологии распространения информации позволяют успешно тиражировать истории о сбывшихся снах и предчувствиях. И вот уже в массовом сознании укореняется идея о том, что «Вселенная может предупредить нас о несчастье». Правда, остаётся без ответа вопрос, по какому принципу Вселенная выбирает человека для предупреждения. Кроме того, истории о несбывшихся снах мы обычно никому не рассказываем («Представляешь, вчера сон приснился хороший. Думал, сбудется. А он не сбылся»).
Кстати, а что там у экстрасенсов? Критик паранормального Джонатан Смит приводит интересный пример с экстрасенсом мадам Фебой. Мадам Феба каждую неделю обращается на своём выступлении к группе из 75 слушателей. В качестве демонстрации своих экстрасенсорных способностей она проводит эффектный трюк: гаснет свет, мадам закрывает глаза, поднимает руки и приглушённым голосом произносит: «Я заявляю, что в комнате присутствует два человека, родившиеся в один день. В один и тот же день и месяц». После этого все присутствующие пишут свои даты рождения на листочках, и после проверки листочков добровольцами выясняется, что мадам Феба права. Примечательно, что подобное заявление мадам делала сотни раз и практически всегда угадывала. Может быть, всё это результат предварительной подготовки — слушатели заранее отбираются с учётом дат рождения? Но вроде всё честно, посетители не отбираются заранее. Тогда мы вынуждены признать наличие у мадам Фебы неких тонких интуитивных чувств? Не будем торопиться с выводами. На самом деле мы столкнулись здесь с обычным математическим трюком, его иногда так и называют «парадокс дней рождения».
Пусть в комнате сидят два человека. Какова вероятность, что эти люди имеют разные день и месяц рождения? Будем рассуждать так: вероятность родиться в какой-то день для первого человека равна 365/365 (или единица — он же родился в какой-то день). Для второго человека родиться в другой день равна 364/365 (один день уже был занят, осталось 364 на выбор). Для нахождения общей вероятности события «два человека родились в разные дни» мы должны перемножить эти две вероятности: 365/365 × 364/365. Получим 0,9973, или 99,73%. Продолжая эти рассуждения, для группы из 23 человек получим: 365/365 × 364/365 × 363/365 × … × 343/365 = 0,493. То есть вероятность того, что в группе из 23 человек все эти люди родились в разные дни, составляет всего 50%. Для группы из 75 человек эта вероятность окажется меньше одного процента. То есть в группе из 75 человек с вероятностью 99,9% окажутся два человека с одинаковыми днями рождения.
Как говорится, знание математики и никакого мошенничества! Почему нам об этом не рассказывали в университете?
Магия больших чисел3h>
Есть что-то мистически завораживающее в больших числах, особенно если это касается гибели людей. Эту нашу особенность активно эксплуатируют СМИ и популисты всех мастей.
Каждый год в России в ДТП гибнут от 20 до 35 тысяч человек. С 2000 по 2016 год погибло 499 тысяч человек. По 80 человек в среднем в день. Настоящая война — полмиллиона за 17 лет! При этом здесь не учитывается количество умерших от травм спустя некоторое время после аварий. А также не учитываются покалеченные люди. Для сравнения за 10 лет войны в Афганистане безвозвратные потери советских войск составили 15 тысяч человек. Погибнуть в ДТП — одна из наиболее вероятных неестественных смертей. Цифры ужасают.
Какой же вид транспорта наше население считает самым опасным? Конечно же, авиацию. После каждой очередной авиакатастрофы тысячи людей зарекаются — на самолёты ни ногой! Посмотрим, сколько же человек гибнет в авиакатастрофах. За 66 лет (с 1946 по 2012 год) в различных авиакатастрофах на территории СССР и РФ погибло 6,5 тысячи человек. Цифра немаленькая. Но давайте сопоставим: 6500 жертв за 66 лет и 500 тысяч жертв за 17 лет. Несколько сотен в год против 25 тысяч.
Всё дело в том, что в ДТП обычно гибнут немного людей за раз. Гибнут часто, гибнут каждый день, и за год набегает ужасная цифра. Но об этом мало говорят по телевизору. А в авиакатастрофах обычно погибает много людей сразу: 50,100, 200. Это и оказывает такое будоражащее воздействие. Мы не утверждаем, что авиаперелёты полностью безопасны. Но есть ли повод для паники? И что на самом деле опаснее: сесть на самолёт или отправиться с друзьями на машине в соседний город?
Аналогичный анализ можно провести и с жертвами терактов. Теракты — это одна из самых любимых тем для политических спекуляций в любой стране мира. Как правило, террористы достигают главной своей цели — запугать население. Но, отринув эмоции, давайте попробуем выяснить: от чьих рук погибнуть у нас самая высокая вероятность? Это упражнение я оставлю желающим для самостоятельного разбора. Оцените количество жертв терактов за год на территории России. А потом посмотрите количество самоубийств и количество жертв бытового насилия за этот же период.
«Из-за врачебных ошибок ежегодно гибнут десятки тысяч людей даже в развитых странах. Мой знакомый специалист по акупунктуре не убил ни одного. Значит, традиционная медицина гораздо менее опасна». Давайте разберёмся. Десятки тысяч? Да, действительно, цифры впечатляют. Но разумны ли выводы? Как мы сравниваем? На сколько клинических случаев врачебного вмешательства приходятся эти десятки тысяч смертей? На десятки миллионов? А кто ведёт статистику смертей после неудачных сеансов альтернативной медицины? Идёт ли диагностика после лечения, отслеживание состояния пациента? Всё ли мы учитываем? Сами альтернативщики будут утверждать, что не убили ни одного пациента. Но так ли это на самом деле?
В Интернете периодически популяризируется идея домашних родов. Довольно высокий процент людей разделяет опасные идеи о естественности, безопасности и правильности домашних родов. Когда дело доходит до самого процесса, слава богу, у большинства из них хватает здравомыслия не отказываться от госпитализации, но сама идея на слуху — значит, у неё много сторонников. К примеру, сообщества по данной тематике ВКонтакте насчитывают от 2 до 13 тысяч участников. Один из центральных тезисов «доморожениц» — клинические роды опасны. И действительно, периодически в СМИ всплывают резонансные случаи смерти рожениц в роддомах. Но что говорит статистика? На 2015 год показатель материнской смертности в России — 10,1 на 100 тысяч родов. Печальные цифры. Ими даже можно запугивать население — спасибо нашим СМИ («Врачи убили
очередную роженицу»). Если учесть, что за этот год родилось около 2 миллионов человек, то получится, что при родах [TBS_TOOLTIP placement=»top» title=»Интересно, что одну и ту же информацию можно преподносить в разном виде. Как вы думаете, какой заголовок для газетной статьи с большей вероятностью выберет журналист, охотящийся за сенсацией: «За 2015 год в родильных домах погибли 200 рожениц» или «За 2015 год 99,9998% процентов матерей успешно народили маленьких россиян»?» style=»border: 1px solid #ddd; padding: 3px;»]погибли почти 200 матерей[/TBS_TOOLTIP]. А какова статистика смертей при домашних родах? Какие выводы нам делать, если она достигает 21 смерти на 10 тысяч рождений? Если с официальной медициной в стране всё не идеально, следует ли отсюда вывод, что альтернативная медицина справится с проблемами лучше?
Нет, не следует.
Нормальное распределение
Нормальное распределение (или распределение Гаусса) — упрощённо говоря, это такое распределение в теории вероятностей, при котором среднее значение некоторого условного признака встречается чаще всего. А отклонения от средней величины встречаются тем реже, чем значительнее эти отклонения. В этом контексте можно сказать, что «норма» (среднее значение) — это понятие большинства.
Например, для людей определённого возраста и определённого пола существует норма массы тела — то есть некое среднее значение, которому соответствует большинство людей (не путайте с рекомендуемой здоровой нормой). При этом могут встретиться и люди с массой сильно больше нормы, и люди с массой сильно меньше нормы. Если в обществе возникает определённая социальная проблема — например, голод или ожирение, то и среднее значение массы (норма) будет смещаться в большую или меньшую сторону. Но общий вид кривой нормального распределения сохранится.
Нормальному распределению подчиняются самые разнообразные множества объектов: рост людей, вес производимого изделия на фабрике, оценки по какому-то предмету у всех учеников в классе (если, конечно, оценки не рисуются «от балды»). Любой навык человека подчиняется нормальному распределению: это значит, большинство людей, обладающих этим навыком, умеют им пользоваться на среднем уровне, но встречается небольшое количество особо талантливых, и есть небольшое количество совсем бестолковых.
Когда мы читаем про очередного номинанта на премию Дарвина, самоубившегося самым невероятным способом, мы можем сказать, что это представитель крайней левой части кривой нормального распределения по интеллекту (или, если хотите, по удачливости). А если мы смотрим передачу про вундеркинда, запоминающего первые 10 тысяч цифр числа «пи» — перед нами очевидно представитель крайней правой части этой кривой. И в принципе, никакой мистики тут нет. Людей на планете очень много, среди них встречаются и поистине удивительные. Если мы возьмём большую группу людей (скажем, несколько миллионов), то в ней может оказаться несколько тысяч особо талантливых — а это, согласитесь, значительная цифра.
Возраст и здоровье — такие же примеры нормального распределения. Кто-то умрёт в младенчестве, кто-то доживёт до 110 лет. Все люди разные. Сторонник курения скажет: «Мой дед курил по две пачки в день и дожил до 90 лет». Что должен доказать этот аргумент? Что, может быть, дедушка дожил бы и до 95 лет, если бы не курил? В любом случае, у нас нет возможности вернуться в прошлое, отговорить этого дедушку от курения и дальше 70 лет следить за его здоровьем. Дожить до 90 лет — это нужно быть аномально здоровым. Но, увы, большинству даже здоровых людей так не повезёт. А курящему большинству повезёт ещё меньше.
Однажды, мне довелось посмотреть телешоу про одарённых детей с участием мальчика, который по силуэту линии государственной границы узнаёт любую страну мира. Очень способный мальчик с очень хорошими родителями. Кто-то из людей, склонных к мистицизму, наверняка скажет, что подобные дети — лучшее доказательство существования новой расы — детей-индиго. Я же буду радоваться другому — что современный Интернет, социальные сети, телевидение способно выискивать удивительно талантливых людей. Ведь таланты есть: среди семи с половиной миллиардов людей на планете Земля найдётся большое количество уникальных личностей (Ютуб не даст соврать).