А значат ли что-то результаты ваших исследований?

Теория вероятностей контринтуитивна. В том смысле, что про неё «здравый смысл» обычно подсказывает совсем не то, что есть на самом деле. И, вообще говоря, понимание теории вероятностей требует от человека сразу двух вещей: понимания формул, в том числе, смысла каждой буковки в них, и, одновременно с тем, понимания моделей, этими формулами описываемых.

Это роднит теорвер с любой естественной наукой. В физике, например, даже если вы заучите все формулы наизусть, вы всё равно от этого не начнёте понимать физику, поскольку механическое заучивание формул вам никак не поможет в выборе того, какую формулу применять к вот этой вот задаче. В этом смысле, гораздо лучше не помнить формулы наизусть целиком, но зато хорошо понимать, какая формула к какой модели относится — саму формулу-то можно и загуглить за десять секунд.

Так вот, в области теорвера и статистики люди обычно не только не знают формул, кроме «среднего арифметического», но заодно вообще не понимают, какую именно модель описывает какой-то показатель, включая означенное «среднее». Это, разумеется, приводит к тому, что, прочитав где-то умные слова, обычно относящиеся к данной области, человек у себя в голове рисует картинку, весьма далёкую от положения вещей. И, соответственно, принимает гипотезу, которая в общем случае даже хуже нулевой, коя всегда выражается простым словосочетанием «явления нет».

В самом деле, лучше считать, что не знаешь о ситуации ничего, чем быть убеждённым в существовании явления, отсутствующего в реальности. Потому что, если вы будете воспринимать, скажем, бросок монетки как что-то непредсказуемое, шансов не проиграться в орлянку у вас будет больше, чем если вы будете думать, будто выпавшая решка повышает вероятность выпадения орла при следующем броске или, тем более, что какое-то заклинание увеличивает шансы на выигрыш.

Есть, например, два мешка с шариками. Первый мы поцеловали. После этого мы наугад достали из каждого мешка сто шариков. Из первого — 97 белых и 3 чёрных, а из второго — 99 белых и 1 чёрный.

Что нам про это дело скажет теорвер? Что поцелуй мешка увеличивает вероятность достать чёрный шарик? Что поцелуй мешка увеличивает количество чёрных шариков в нём? Что неведомая сила тянет нас к поцелуям мешка, в котором больше чёрных шариков?

Нет, на самом деле, теорвер нам скажет, что мы наверняка знаем только то, что в обоих мешках есть чёрные и белые шарики, причём чёрных там скорее всего меньше, чем белых.

Но как так-то? Ведь количество вытащенных чёрных — три к одному? Неужели же нет никакого явления, которое обуславливает разницу в извлечённых чёрных шариках аж в три раза? Ведь аж целых сто экспериментов — разве же этого мало?

Ну, таки да, мало. Поскольку эксперимент в той области, про которую мы хотим сделать вывод, на самом деле, мы поставили всего один.

Мы действительно попробовали сто раз доставать шарики из первого мешка и сто раз из второго. Но при этом всего один раз попробовали узнать, что будет, если достать по сто шариков из обоих мешков. Поэтому про доставание шарика из каждого мешка у нас есть нехилая статистика, но вот про доставание ста шариков из обоих мешков оная у нас очень маленькая — всего одна попытка для вот этой их пары.

Как это соотносится друг с другом? Ведь эксперименты нам как бы позволяют оценить, например, среднее, которое, если мы полагаем белый шарик нулём, а чёрный единицей, для первого мешка равно 3/100, а для второго 1/100. И таковы же, значит, вероятности достать чёрный шарик из соответствующего мешка. Неужто никак нельзя просто взять и сказать, что, раз среднее отличается в три раза, то что-то типа «в первом мешке шариков втрое больше»? Ну или что «поцелуй втрое повышает вероятность извлечения чёрного шарика»? Не это ли самое вероятное предположение, исходя из имеющихся данных?

Для начала заметьте, что даже в этих риторических восклицаниях уже фигурировали две гипотезы: «в одном мешке доля чёрных шариков выше» и «поцелуй мешка увеличивает вероятность извлечения чёрного шарика». И даже в этой «популярной» трактовке результатов у нас уже нет возможности по имеющимся данным узнать, какая из этих гипотез верна. Что как бы уже намекает.

Но того мало. Да, это может кому-то показаться странным, однако каждый статистический показатель означает только то, что означает. Если мы считаем среднее по результатам каких-то экспериментов, то это среднее — наше текущее наилучшее предположение о среднем же на более длинной серии точно таких же экспериментов над точно такими же объектами. На этом всё: никаких объяснений, почему оно вот такое, вычисленное нами среднее не даёт — это мы сами по собственному произволу или машинально приписываем оному какое-то из наших личных предварительных предположений о причинах.

Причём даже с самим средним всё не так прямолинейно.

Да, поскольку иных данных у нас пока нет, мы будем предполагать, что, достань мы десять тысяч шариков из первого мешка, доля чёрных по-прежнему будет где-то так 3/100, а из второго — 1/100.

Но это предположение именно что «наилучшее», а не «однозначно верное» — как минимум поскольку к любому статистическому показателю ещё прилагается степень уверенности в этом показателе. Численно оценивающая, сколь вероятно то, что мы не угадали с нашим наилучшим предположением. И тут надо понимать, что по этим данным уверенность вот в этих 3/100 для первого мешка весьма низкая. На самом деле, она столь низка́, что мы даже на данный момент считаем, что скорее всего она не 3/100.

Но почему тогда мы берём за оценку 3/100? Что тут вообще происходит?!

Происходит вот что.

3/100 — это самая вероятная доля чёрных, однако она самая вероятная лишь в том смысле, что по тем данным, которые мы только-то и имеем, априорная вероятность того, что из ста вытащенных шаров 3 будут чёрными, чем того, 2 будут чёрными, чем того, что 4 будут чёрными, чем того, что 5 будут чёрными и так далее.

Однако она вовсе даже не выше того, что чёрными окажутся не 3 шара. Напротив, гораздо более вероятно, что их будет не 3.

Поэтому если мы играем в некую игру, где надо угадать сколько шаров из ста вытащенных окажутся чёрными, причём нам надо сделать ставку на их конкретное количество, то надо выбирать вариант 3 чёрных шара для первого мешка и 1 — для второго. Но если ставки предполагаются другие: 3 чёрных шара из первого или не 3 чёрных шара, 1 чёрный шар из второго или не 1 чёрный шар, то выбирать надо «не 3» и «не 1» — это гораздо более вероятно.

Тут можно было бы написать много формул, однако даже без формул вполне понятно, что каким бы ни было соотношение чёрных шариков и белых в каждом из мешков, при случайном извлечении сотни из них мы скорее всего в разных экспериментах извлечём разное их количество. По этой причине, даже при том, что в обоих мешках абсолютно равная доля чёрных шаров, гораздо более вероятно, что мы извлечём из них разное количество оных, чем одинаковое.

Понимаете, в чём штука? Наша «наилучшая ставка» на конкретную долю радикально отличается от «наилучшей ставки» на точное попадание именно в эту долю, а потому, несмотря на то, что наиболее вероятной конкретной долей мы для первого мешка сейчас предполагаем 3/100, а для второго — 1/100, всё ещё весьма вероятно, что доли шариков в мешках какие-то иные — в том числе, одинаковые, — поскольку даже при абсолютно равной доле мы скорее всего извлекли бы разное количество чёрных шариков из этих мешков. Не обязательно получилось бы 3 и 1: это — случайный исход. Могло быть 4 и 3, 1 и 4, 2 и 3, но если бы мы проделали много экспериментов с вытаскиванием ста шариков даже из двух мешков, с абсолютно равными долями чёрных шариков, такое наблюдалось бы чаще, чем 1 и 1, 2 и 2, 3 и 3 и т.д.

Иными словами, этим единственным экспериментом мы не опровергли нулевую гипотезу — «мешки не отличаются друг от друга по доле чёрных шариков в них, а поцелуи мешка ни на что не влияют»: ведь то, что мы пронаблюдали, вполне вероятный для этой нулевой гипотезы исход. Причём, если его трактовать не как именно что «3 против 1», а как «мы извлекли разное количество чёрных шариков из мешков с одинаковой их долей», то это даже существенно более вероятный исход, нежели исход с равным их количеством.

Кстати, а почему мы считаем нулевой гипотезой именно идентичность состава мешков?

Это — хороший вопрос, ответ на который тоже базируется на «игре со ставками» и тоже напрямую связан с «не проиграть в орлянку».

Предположим, в орлянке мы угадываем не орёл или решку, а количество выпавших орлов при, скажем, ста бросках. Причём, чем меньше квадрат отклонения нашей ставки от того, что получилось на самом деле, тем больше мы выиграли.

Мы могли бы предположить, что решка выпадает вдвое чаще, чем орёл, и поставить на «33 орла», а могли бы, что наоборот, и поставить на «66 орлов». Если нам повезло, и мы довольно хорошо угадали, то мы выиграем много. Но если мы угадали неверно — ситуация обратная, то мы, наоборот, выиграем мало.

Как на самом деле, мы не знаем. Однако мы можем просуммировать (а точнее проинтегрировать) все возможные варианты и найти зависимость наиболее вероятного выигрыша на длинной серии бросков (что обычно называется его, выигрыша, «ожиданием») от нашего априорного предположения о вероятности выпадения, скажем, орла и соответствующей этому предположению ставки.

Так вот оказывается, что в условиях полного незнания, наибольший ожидаемый выигрыш в такой игре будет, если мы считаем выпадение орла и решки равновероятными, то есть вероятность выпадения каждой из сторон равной ½.

Вот как ведёт себя это «интегральное квадратическое отклонение» относительно названной нами доли орлов, если его усреднить и превратить тем самым в «дисперсию».


 

Действительно, при полной неопределённости называть крайние значения: «будут выпадать только орлы» или «будут выпадать только решки» — самый невыгодный вариант. Ведь если мы скажем, например, «только орлы», то при только решках отклонение в доле будет


 

а при равной доле орлов и решек оно будет


 

Однако если мы скажем «орлов будет столько же, сколько решек», то даже если будут выпадать только орлы или только решки, то отклонение в обоих случаях окажется


 

Естественно, если мы назвали какую-то долю и в точности угадали, то разницы нет, однако она есть при неугадывании: максимум, на сколько мы промазали, если сказали «поровну орлов и решек», — ½. Но вот если мы сказали только «орлы», то мы уже промазали максимум на 1, причём вариант с отклонением в ½ тоже возможен.

По графику это хорошо видно: если сделать ставку на долю в ½, то среднеквадратическое отклонение по всем возможным вариантам будет порядка 0,08, однако в крайних состояниях оно уже порядка 0,33 — весьма существенная разница для предположительной величины выигрыша. Понятно, что выгоднее всего предполагать равновероятность орла и решки и потому делать ставку на «их будет поровну».

На практике, разумеется, мы будем пересматривать свою оценку вероятности, в зависимости от статистики предыдущих бросков, и подстраивать стратегию ставок под результаты пересмотра, однако если бы нам было запрещено менять исходную версию, то ½ — самый выигрышный для нас вариант.

Аналогичные же рассуждения подходят для любого количества возможных исходов: каждый раз будет получаться, что при n исходах самый выгодный вариант — считать, что вероятность каждого из исходов = 1/n. Для трёх исходов — 1/3, для четырёх — 1/4 и т.д.

По этой же причине в качестве нулевой гипотезы — описания ситуации в стиле «явления нет» — мы считаем неизвестные нам мешки идентичными по составу, а поцелуи — ни на что не влияющими.

Впрочем, даже без интегрирования к тому же умозаключению нас подвели бы простые «соображения симметрии»: мешки или стороны монетки для нас на данный момент неотличимы по своим свойствам, а потому, если мы бы сочли перекос в одну из сторон хорошим первоначальным вариантом, то столь же хорошим был бы и аналогичный перекос в другую сторону. Нам нечем обосновать выбор одной из сторон, а потому в качестве «отправной точки» мы выбираем «ось симметрии» — некое предположение, в рамках которого все варианты равноправны.

Так вот, чтобы опровергнуть нулевую гипотезу, и тем самым доказать, что наличие явления более вероятно, чем его отсутствие, нам надо экспериментально обнаружить аномалию, которая слишком маловероятна для того, чтобы наблюдаться при истинности нулевой гипотезы. Точнее, значительно более вероятна в случае, если действует какая-то ненулевая гипотеза, чем если действует нулевая.

Но тут, увы, сравнивая между собой два мешка, мы пронаблюдали очень вероятный для действующей нулевой гипотезы исход, а потому нулевую гипотезу не опровергли: всё ещё более выгодно делать ставку на «никакой разницы нет».

Контринтуитивно? О да.

Но я могу переформулировать всё так, что оно станет гораздо более интуитивным, и сомнений в верности вышеприведённых рассуждений почти не останется.

Риторическая магия, которая, возможно, многих сбила с толку, тут состоит в самой формулировке процесса: «мы достаём шарики из мешка». Этот процесс весьма легко представить, и при этом он выглядит так, будто мы действительно ставим много экспериментов.

Однако давайте рассмотрим точно такой же процесс в иной формулировке.

Нам показывают число, которое сгенерировано неизвестно чем. Каким-то генератором случайных чисел. Это число — 3/100. Потом нам дают второе число, которое тоже сгенерировано чем-то неизвестным — 1/100.

Вопрос: это был один и тот же генератор с одними и теми же параметрами или два разных?

Здесь вполне очевидно, что по этим двум числам мы не можем ответить на этот вопрос. Вообще совсем никак не можем. Поскольку генератор случайных чисел, очевидно, может выдавать разные случайные числа, а потому мог бы выдать и два вот таких. Но и другой генератор тоже мог бы выдать второе случайное число. По известному нам на данный момент — по двум числам — мы вообще никак не можем различить между собой эти две ситуации.

Но вполне ведь возможно, что этот генератор работает как раз так, как мы моделировали процесс: берёт мешок с шариками, извлекает из него сто штук, считает среди них долю чёрных и выдаёт её в качестве ответа. И два генератора могут использовать мешок — каждой свой. При этом у них в мешках могут быть разные доли шариков, а могут и одинаковые. И все эти ситуации мы никак не можем отличить по предоставленным нам сведениям.

Иными словами, как только мешки ушли куда-то на задний план, а вместо них появились генераторы, которые напрямую выдают число, ранее бывшее долей явных для нас шариков, стало практически очевидно, что данных слишком мало для выводах о параметрах генератора, распределении случайных чисел, им выдаваемых, и даже для того, чтобы отличить ситуацию с двумя генераторами от ситуации с одним. И тем более их недостаточно для того, чтобы оценить влияние поцелуев на эти самые генераторы.

Заметьте, это — всего лишь переформулировка ровно всё той же модели. Которая абсолютно ей идентична, а потому по своему поведению и по нашим выводам никак не может от этой модели отличаться.

Просто по ней гораздо более интуитивно понятно, почему правильный вывод — вот такой: «на основании этого эксперимента мы ничего не узнали».

Далее.

Если бы нам показали генератор, который выдал одно случайное число, то в ответ на предложение угадать следующее мы назвали бы то, которое он нам уже выдал: про него, по крайней мере, известно, что такое число генератор может выдать. Со вторым генератором, если бы нам явно озвучили, что он — какой-то другой, мы бы поступили аналогично. Но вот спроси нас, разные это генераторы или один и тот же, то для сохранения последовательности суждений мы должны были бы ответить «один и тот же»: ведь нам известно, что есть как минимум один генератор, но вот то, что есть и второй — уже неизвестно.

Плюс, конечно, у нас есть соображения симметрии и связанные с ним правила выбора нулевой гипотезы, но даже без них тут правильная версия оказывается не противоречащей интуиции, а ошибочность предположения о том, что по этим данным мы бы могли сделать какие-то заключения о мешках с шариками, становится почти совсем очевидной.

Другое дело, что если нам доступна информация о том, что генератор пользуется для генерации мешком с шариками, то мы по сути уже что-то знаем об устройстве генератора. По крайней мере, форму распределения выдаваемых им чисел (в данном случае — биномиальное распределение, если вам это о чём-то говорит). Да, мы не знаем конкретные параметры оного, то есть долю чёрных шариков в том мешке, который он использует, но хотя бы знаем форму — это уже может изменить наши априорные предположения о вероятности генерации тех или иных чисел, но всё равно в целом ряде случаев не позволяет нам по двум сгенерированным числам отличить генераторы с разными параметрами такого распределения от генераторов с одними и теми же.

Однако об этом нюансе чуть позже, пока же давайте взглянем на то, как в ряде случаев проводятся эксперименты по действенности чего-то там. Например, поцелуев в лоб в процессе лечения шизофрении.

Берём две группы шизофреников. В одной группе всех целуем в лоб, в другой не целуем. Потом сравниваем, где через месяц состояние тестируемых пациентов стало лучше. И делаем вывод.

Всё ж замечательно: двойное слепое тестирование, равные условия, какое-то плацебо, вот это вот всё. Тут ведь точно всё правильно — где вообще можно ошибиться?

Собственно, замените шизофреников на шарики в мешках, группы — на мешки, излечившихся — на чёрные шарики, а не излечившихся — на белые. Поцелуи при этом можно оставить поцелуями.

Получилась точная копия «исследования» с шариками в мешках.

А теперь, как и в прошлый раз, заменим это на генераторы случайных чисел. С очевидным из этого дела выводом: скорее всего мы ничего не узнали.

Быть может, кто-то думает, что оно с шариками не работает, но вот с шизофрениками вдруг начнёт?

Конечно, нет. Что с шариками, что с шизофрениками, процесс совершенно идентичен: даже если мы думаем, что поставили много экспериментов, на самом деле мы поставили ровно один, который на самом деле ничего не доказал ни про различие групп, ни про действенность того, действенность чего мы предполагали таким образом проверять.

Что же мы доказали? Вообще говоря, в общем случае ничего. Мы лишь, если нам очень повезло, получили какие-то зацепки для гипотез.

«Если повезло» в том смысле, что в рассматриваемом раскладе даже зацепок для гипотез нет — там есть лишь очень вероятный исход, соответствующей нулевой гипотезе.

Зацепка же для ненулевой будет в том случае, когда у исхода высокая «статистическая значимость». Эта статистическая мера и ей подобные численно оценивают то, насколько маловероятно получить именно такие результаты, если верна нулевая гипотеза. Если, например, соотношение шариков в обоих мешках одинаковое и доля чёрных там, скажем, 2/100, то вытащить из одного из них три чёрных на сто штук, а из другого 1 на сто штук — очень вероятный исход. А при любой доле чёрных шариков в мешках, если она равная в обоих, очень вероятный исход — вытащить разное, но относительно близкое друг к другу их количество: например, если чёрных шариков там половина, то весьма вероятно, что мы вытащим из одного 45, а из другого — 53.

Напротив, какую бы мы ни предположили равную для обоих мешков долю, крайне маловероятно, что из одного мы вытащим 99 чёрных из ста, а из другого — 1 из ста. Тут уже можно предположить, что либо доли чёрных шариков в мешках заметно отличаются, либо, что немаловажно, есть какой-то фактор, который меняет долю. Причём это совершенно не обязательно тот самый предваряющий вытаскивание поцелуй — в той абстракции, где мы сами лично их вытаскиваем, мы вроде бы всё знаем процесс вытаскивания, а потому как бы уверены, что вытаскивание случайно.

Собственно, различить эти ситуации и позволяет оценка статистической значимости, показывающей насколько аномален такой расклад для нулевой гипотезы.

Однако оно работает только при априорном наличии некоторых знаний о явлении. В частности, о том, какое распределение результатов это явление обуславливает.

Ведь если, например, вспомнить про модель с «генератором случайных чисел», детали которого от нас скрыты, но который, как мы предполагаем, вытаскивает шарики из мешка, то может оказаться, что сам «генератор» устроен не так, как мы предполагали.

Мы предполагали, скажем, что он все шарики вытаскивает наугад, но на самом деле он только первый шарик вытаскивает наугад, а потом смотрит на его цвет и дальше намеренно вытаскивает шарики только другого цвета. За счёт чего 99/100 и 1/100 чёрных шариков в двух актах вытаскивания ста штук оказываются вовсе не маловероятными исходами (такими они были только в рамках нашего предположения), а, напротив, примерами двух только-то и возможных. Да, в этом единственном эксперименте по чистой случайности оказалось, что мы посмотрели на оба варианта, однако могли бы быть и одинаковые: 99/100 для обоих мешков или 1/100 для обоих же.

Естественно, поскольку реальный эксперимент, на основании которого мы сравнивали две группы, всего один, мы никак не можем отсеять вот этот вариант — для этого у нас просто нет данных. Повтори мы такое десять раз, мы бы уже довольно хорошо знали, что возможных исходов вообще всего два: 1/100 и 99/100, — причём они, видимо, равновероятны (во всяком случае, частота их появления не сильно отклоняется от ½, причём с ростом количества экспериментов именно к ½ и стремится). Но по результатам единственного эксперимента и без знания о явлении из каких-то иных источников, мы этого не знаем и без дополнительных экспериментов принципиально не можем узнать.

Иными словами, даже «статистическая значимость» не является гарантией во вселенском абсолюте, а даёт какую-то осмысленную оценку лишь в тех случаях, когда мы уже довольно надёжно что-то знаем о самом процессе и о тех распределениях, которые благодаря ему получаются. То есть при однократном эксперименте и даже на нескольких высокая статистическая значимость как максимум означает, что предполагаемое нами явление могло бы быть, а не то, что оно действительно есть.

С другой стороны, низкая статистическая значимость исхода не гарантирует, что предположенного явления нет: оно может быть, но при этом оказаться более «слабым», нежели какие-то другие факторы, или просто достаточно слабым, чтобы его можно было уверенно отличить по исходам малого числа экспериментов от нулевой гипотезы.

Например, в одном мешке доля чёрных шариков может быть 50/100, а во втором 47/100. Наиболее вероятные исходы при вытаскивании ста шариков в этом случае будут сильно пересекаться с наиболее вероятными исходами нулевой гипотезы, а потому, сколько бы мы ни вытащили чёрных шариков из первого и второго, по этому единственному эксперименту мы никак не сможем отличить реально неравные доли шариков в мешках от равных долей нулевой гипотезы.

То есть, хотя статистическая значимость говорит больше, чем просто столь любимое в пересказах научных статей и иногда даже в самих статьях «среднее», всё равно при малом количестве экспериментов оно в лучшем случае намекает, в какую сторону копать дальше, а не доказывает наличие явления.

Тут имеет смысл дать ещё одно пояснение. Может показаться, что между «десять раз по сто шариков» и «сто раз по десять шариков» нет никакой существенной разницы — мы ведь оба раза извлекли тысячу. И если мы такое проделали с обоими мешками, то что нам даст «физическое» разбиение таких вытаскиваний на десять экспериментов вместо одного? Мы ведь можем провести это разбиение мысленно или в Экселе — что от этого поменяется?

Надо отметить, в случае с шариками, извлекаемыми из мешка, разница действительно не так заметна, как была бы с пациентами.

По сути, главное, что поменялось, это то, что хотя при слиянии десяти экспериментов в один большой мы сохранили всю информацию о совокупном распределении, мы утратили информацию о «локальном».

Предположим, мы знаем, что при извлечении тысячи шариков из первого мешка, чёрных оказалось сто штук, а из второго — десять. Вроде бы ничего особенно странного — есть некоторая почва для предположения о том, что в первом мешке доля чёрных шариков больше, чем во втором, только и всего.

Однако теперь предположим, что эта тысяча извлекалась в процессе десяти экспериментов, и по результатам видно, что в девяти из них из первого мешка извлекались только белые шарики, а в одном — только чёрные.

Во-первых, статистическая значимость таких данных радикально выше, ведь такая ситуация гораздо менее вероятна. Она столь маловероятна, что появляется гораздо более сильный повод предположить, что мы вообще неправильно представляем себе процесс.

То есть, во-вторых, с большой вероятностью то, что мы полагали вытаскиванием шариков из мешка, где чёрные и белые шарики хорошо перемешаны — как выяснилось по результатам, видимо, в пропорции примерно 1 к 9, — является каким-то другим процессом. Возможно, лаборанты один раз ошиблись и перепутали мешки. И на самом деле, в том мешке, который мы считали «первым», доля чёрных шариков не ориентировочно в десять раз больше, чем во втором, а наоборот неотличима от нуля. Но зато где-то есть третий мешок, в котором неотличима от нуля доля белых шариков, который по ошибке-то и взяли один раз лаборанты.

Это снова ничего не доказывает наверняка, но существенно меняет наш взгляд на процесс: совокупная доля ровно та же, что, если бы нам показали сводку по всем экспериментам, но выводы и подозрения радикально иные — практически обратные сделанным по совокупным результатам.

В случае с лечением шизофрении поцелуями к этому добавляется ещё целый ряд нюансов, почти не выраженных в случае с мешком, но гипотетически имеющих возможность сказаться и там.

Если в результате единственного эксперимента в группе с поцелуями излечились 30 человек из ста, а без поцелуев — 10 человек из ста, это одно дело, но вот если в десяти экспериментах по десять человек в каждой группе в трёх случаях излечивались все десятеро из первой группы и один раз все десятеро из второй, но зато все остальные разы не излечивался вообще никто, то это дело уже совсем другое. Если по первым данным есть некоторая надежда на то, что поцелуи работают, то по вторым (у которых, заметьте, снова точно такой же суммарный расклад), напротив, это серьёзный повод предположить, что поцелуи тут вообще не при чём — на самом деле, действует какой-то фактор, который мы упустили из внимания.

Ещё более рельефно ценность многократных исследований на малых группах в сравнении с однократным на большой проступает, если учесть, что в многократных исследованиях, которые мы проводим в разные времена года, в разных больницах, с разным персоналом, разными лаборантами и т.п. мы значительно усредняем действие всех остальных возможных побочных факторов, которые не были устранены из исследования, поскольку, например, никто просто не подумал, что и вот это тоже может повлиять. Таким образом, даже при той же совокупной численности пациентов выводы становятся более надёжными и возрастает вероятность получить оценку поцелуя как лекарства гораздо более близкую к его реальной действенности.

Это уже не статистическая значимость, как несколько абзацев назад, но тоже важный довод в пользу того, что мы измеряли именно эффект от поцелуев, а не какой-то случайный шум.

Кстати, заметьте, в пересказах научных статей почти никогда не приводят даже вот эту относительно очевидную и условно надёжную меру — статистическую значимость результата, тем самым делая выводы по одному эксперименту совершенно бессмысленными. Как было показано выше, единственный эксперимент, даже если он замаскирован под многократные методом «мы поместили в обе группы по триста пациентов», и так мало что говорит. Если же не приведена даже статистическая значимость результата, он не говорит вообще ничего — даже про направление для дальнейших поисков и очерёдность проверки ненулевых гипотез.

При этом в самих научных статьях статистическую значимость зачастую вычисляют неправильно. Например, выбирая из нескольких экспериментов серии лишь те, у которых статистическая значимость высока, и приводя статистическую значимость только для них. Что, конечно, радикально искажает смысл данной меры.

Вполне понятно, например, что при ста бросках монеты довольно маловероятно выпадение орла более чем 95 раз. Статистическая значимость такого исхода была бы довольно велика. Однако если мы 10 000 раз бросим монету по сто раз, то почти наверняка там будут такие серии бросков, при которых орёл более 95 раз всё-таки выпал.

Пусть их для определённости, например, было три штуки. Если выбрать только их, но при этом привести статистическую значимость так, будто бы экспериментаторы только-то три раза и попробовали, то это будет радикальная дезинформация всех читателей и неосведомлённых коллег. Если попыток было три и все три раза орёл выпадал более 95 раз, то у таких исходов действительно очень высокая статистическая значимость, вызывающая сильные подозрения, что вот эта монетка — особая. Однако если попыток было десять тысяч, и в трёх из них орёл выпал более 95 раз, то статистическая значимость такового очень низка.

Тут, кстати, наблюдается аналогия с радикальным отличием «двести раз вытащили шарик из мешка» от «один раз сравнили результаты ста вытаскиваний шариков из двух мешков»: как там вероятности, так и тут статистические значимости относятся к совершенно разным моделям и явлениям. Там мы подменили однократное экспериментальное сравнение двух групп двумястами вытаскиваниями шариков, а тут мы подменили статистическую значимость всей серии экспериментов статистической значимостью внутри нескольких нами постфактум избранных.

Статистическая значимость характеризует случайный процесс, если же мы отбирали эксперименты по какому-то критерию постфактум, то такой процесс уже был не случайным и статистическая значимость этих экспериментов уже не имеет никакого смысла. Смысл теперь имеет только статистическая значимость доли экспериментов, подошедших под критерий, а не исхода этих экспериментов.

Вообще говоря, если такую манипуляцию счесть «нормальным доказательством», то почему бы не упростить процесс? Давайте не будем бросать монетку 10 000 раз по сто раз, а бросим её просто сто раз. Орёл выпадет, например, 47 раз из ста, но мы постфактум выберем только те броски, когда выпал орёл, и получим 47/47 = 100/100. Огромная «статистическая значимость». Но доказала ли она хоть что-то? Даже если бы орёл выпал один раз из ста, мы могли бы выбрать этот один бросок и снова получить, что якобы «орёл выпадает сто раз из ста» — почти прямо противоположное тому, что на самом деле наблюдалось.

Всё это подводит нас к мысли, что при сравнении групп между собой или при проверке действенности какого-то из факторов мало увеличить численность представителей каждой из групп в рамках однократного эксперимента — кроме этого в обязательном порядке следует увеличить количество самих экспериментов, то есть сравнений доли каких-то исходов в одной группе с их долей в другой группе.

То есть замена однократного вытаскивания ста шариков из каждого мешка на однократное вытаскивание тысячи шариков чего-то докажет в гораздо меньшей степени, чем замена однократного вытаскивания ста шариков из каждого мешка на десять вытаскиваний по сто же шариков.

И, аналогично, в плане обоснованности выводов проверка метода лечения шизофрении при помощи поцелуев в лоб на двух группах по двадцать пациентов гораздо слабее отличается от однократной же проверки на группах по двести пациентов, чем отличались бы десять проверок на группах по те же двадцать.

Если поцелуи столь действенны, что в группе с поцелуями излечатся все, а в группе без них — никто, и в обоих группах при этом будет по сто человек, это хоть что-то нам скажет: не обязательно, что излечивают именно поцелуи, но всё-таки на такое после такого исхода есть хоть какая-то надежда.

Впрочем, всё равно подтвердить её могут только повторные исследования — ведь мог быть какой-то иной фактор, вызвавший этот эффект, например, несоблюдение кем-то из действующих лиц технологии исследования — вдруг он, например, тем, кого целует, ещё и вкусную конфетку давал, а излечивает именно какой-то ей компонент.

Но вот если с поцелуями излечится 65, а без поцелуев — 48, то это не скажет нам вообще ничего. Мы, по сути, просто записали какой-то шум, а потом при помощи воображения «распознали» в нём «тайные знаки».

С другой стороны, если на десяти проверках по двадцать человек, каждый раз получалось что-то близкое к «с поцелуями вылечилось 15, а без них — 5», то вот тут уже есть хороший задел для выводов.

То же касается и сравнения групп разного состава в плане того, какая из них имеет в чём-то преимущество, и аналогичных этому сравнительных исследований.

Понятно, что исследования обычно дорогое удовольствие, а потому есть соблазн сократить их количество. Однако сокращение количества до одного—двух (пусть даже, например, с группами по сто человек) превращает результаты в шум, из которого не следует вообще ничего. Это можно рассматривать как «один кирпичик» и где-то публиковать/выкладывать с расчётом на будущее — на то, что, когда аналогичное проделают ещё двадцать исследовательских групп, в сумме из всего этого получится выборка, по которой выводы уже можно делать.

То есть такие эксперименты, хотя в общем случае ничего не значат сами по себе, могут стать содержательной и полезной частью метаобзора, в котором они будут уже не единичным случаем, а частью обширной статистики таких случаев. Это, впрочем, не гарантирует, что тем самым нулевая гипотеза обязательно будет опровергнута — возможно, напротив, ещё более наглядно будет показано, что ничего радикально отличающегося от того, что мы бы наблюдали при истинности нулевой гипотезы, тут нет. Однако возможность выйти на альтернативную гипотезу в мета-обзоре всё-таки уже появляется.

Но вот преподнесение сего в стиле «мы открыли», которое потом разносится из научных изданий по новостным, больше похоже на компанию по массовой дезинформации: реальная и ничего не значащая пурга закрепляется в общественном мнении как научно доказанные сведения.

Я каждый раз смеюсь, читая про исследование в стиле «мы взяли две группы по тридцать студентов, которым поручили делать Икс разными способами, так вот в одной группе справились 22, а в другой — 15, что доказывает преимущество первого способа», и очень хотел бы, чтобы и все остальные тоже начали смеяться, читая подобное, а не с умным видом пересказывать сие, будто бы сделанные таким способом выводы столь же несомненны, сколь существование Луны или Солнца.

Лекс Кравецкий :