Коэффициент корреляции и музыка

В тексте будут фигурировать два конкретных явления, однако они выбраны лишь для примера — потому что о них я хорошо помнил в момент написания. Вместо этих примеров можно было бы подобрать другие (как из системы образования, так и из других областей) — ведь все рассуждения, которые они призваны иллюстрировать, относятся к гораздо более общей теме: выводам на основе статистики, трактовке результатов экспериментов/наблюдений и научному методу в целом.

Подобных примеров очень много, однако с использованием абстрактных «явления Икс» и «явления Игрек» вести рассуждение хоть и возможно, но воспринимается это менее наглядно, поскольку для «овеществления» абстракции и так не очень хорошо понимающему суть проблемы читателю пришлось бы подыскивать примеры самостоятельно.

Поэтому рассуждения будут вестись на конкретных примерах и только под конец на их место попадут «явление Икс» и «явление Игрек».

Предположим, мы провели исследование касательно музыки. Причём хорошее такое: съездили чуть ли не во все регионы России, опросили в общей сложности 30000 человек, перепроверили результаты стопицот раз, посчитали спецсофтом, а не в столбик, то есть почти наверняка ошибки тут нет.

Согласно исследованию получилось, что корреляция между «умеет играть на фортепьяно» и «знает традиционную нотную запись» составляет 0,8.

Следует ли из этого, что мы таким образом доказали тезис: «Знание традиционной нотной записи сильно помогает умению играть на фортепьяно»?

Может показаться, что доказали — ведь такой высокий коэффициент корреляции означает, что большинство умеющих играть на фортепьяно знают и нотную запись тоже. Эти вещи определённо как-то связаны.

Однако ощутимо положительный коэффициент корреляции мы бы получили, и если бы заменили «знает традиционную нотную запись» на «дышит воздухом». Корреляция была бы не равной единице, поскольку многие дышащие воздухом не умеют играть на фортепьяно, но всё-таки ощутимо большей нуля, поскольку все не дышащие гарантированно не умеют.

В общем, допустим, мы бы получили корреляцию 0,5—0,6, и что бы это нам показало? Какую именно связь?

Безусловно, то, что люди дышат, «как-то» связано со способностью играть на фортепьяно: играть на фортепьяно умеют только люди, а они все дышат воздухом. Те же из них, кто уже успел перестать им дышать, действительно вряд ли способны играть на фортепьяно.

Однако скорее всего мы всё-таки хотели установить не эту очевидную взаимосвязь — «на фортепьяно способны играть только люди из числа пока ещё живых», — а что-то другое. Например, мы хотели выяснить, что именно помогает обучению игре на фортепьяно. Но выяснили ли? Видимо, нет.

Воздух тут, очевидно, оказался необходимым условием, но не достаточным. Быть может, тогда знание традиционной музыкальной нотации тоже необходимое условие? Ну, раз уж с воздухом именно так и вышло.

Определённо не необходимое. Ведь, как было сказано ранее, воздухом дышат все люди, но на фортепьяно умеют играть не все. То есть дыхание, как максимум, необходимое условие, но не достаточное. При этом нотацию тоже знают не все люди, однако некоторые из таких всё-таки умеют играть на фортепьяно. Несмотря на кажущееся сходство, знание музыкальной нотации связано с игрой на фортепьяно не так, как способность дышать: да, по примеру дыхания оно тоже, несмотря на высокую корреляцию, не достаточно, но в отличие от него и не необходимо: ведь совершенно точно есть люди, которые играть умеют, а нотацию не знают.

Положительная корреляция сама по себе не дала нам возможности отличить эти случаи. То есть таким способом — измеряя корреляцию — мы не можем доказать ни достаточность, ни необходимость.

Но может быть, сможем хотя бы полезность одного для другого?

Ок. Поскольку мы опрашивали людей из России, почти наверняка большинство из них будет уметь говорить на русском языке. То же самое будет наблюдаться и среди тех, кто умеет играть на фортепьяно. При этом те, кто по-русски в России говорить не способен, в основном будут умственно отсталыми, малообразованными трудовыми иммигрантами и т.п., и лишь небольшая их часть окажется иностранными пианистами на гастролях или просто иностранцами, которые при этом умеют играть на фортепьяно.

То есть корреляция снова будет заметно положительной, однако мы при этом вполне понимаем, что умение говорить на русском не является неотъемлемым свойством человека как вида.

Также вполне понятно, что умение говорить именно на русском само по себе не приводит к умению играть на фортепьяно. Безусловно, умение говорить хоть на каком-то относительно распространённом языке этому ощутимо помогает, но именно русский тут не обязателен и ничем не превосходит, например, английский, а скорее ему даже уступает, поскольку образовательных ресурсов на английском радикально больше.

Корреляция в ряде случаев общественных взаимодействий (как, впрочем, и иных областей мироздания) действительно заметно отличается от нуля, однако при этом она вполне может быть такой просто по причине необходимости некоторого условия для жизни вообще или же результатом специфических условий, сложившихся в некотором обществе.

Ну ладно, так не сработало. Давайте тогда внесём дополнение. Мы уже знаем, что дыхание воздухом и способность говорить на русском — свойства внешних по отношению к обоим явлениям условий, не связанные непосредственно с умением играть на фортепьяно. И те, кто играет, и те, кто не играет, дышат воздухом. Ну и, если они не умственно отсталые и не вынужденные беженцы, то в России и те, и другие по-русски говорить умеют.

Однако с музыкальной нотацией не так: сами данные показывают, что среди тех жителей России, которые умеют играть на фортепьяно, очень многие действительно знают классическую музыкальную нотацию, а среди тех, которые не умеют, её знает мало кто. То есть всё равно, конечно, некоторые знают — потому что учились играть на каком-то ином инструменте, а заодно и выучили нотацию, потому что просто поинтересовались и разобрались, потому что им в обычной школе на уроках музыки об этом рассказали и т.п., но даже сам коэффициент корреляции столь высок, что заметно превышает таковой для необходимого условия, подобного дыханию воздухом.

Получается, тут не просто «все знают музыкальную нотацию, но некоторые ещё и умеют играть на фортепьяно», а «среди тех, кто умеет играть, доля знающих классический способ музыкальной нотации заметно выше, чем среди неумеющих». И коэффициент корреляции уже не 0,5, а 0,8, и по гистограммам распределения прямо глазами всё видно.

Не говорит ли это о том, что связь всё-таки доказана?

Нет, всё ещё не говорит, поскольку речь всё ещё, вполне может быть, о специфическом условии данной среды. Причём ни по коэффициенту корреляции, ни даже по гистограммам мы не сможем однозначно выяснить, так оно или не так.

В ряде других стран используется музыкальная нотация, отличная от европейской — просто по той причине, что традиционная музыка этих стран развивалась в иных условиях и даже имеет иной музыкальный строй. Тем не менее, в этих странах музыканты всё-таки умеют играть на музыкальных инструментах, в том числе, на аналогах фортепьяно и даже непосредственно на фортепьяно или на синтезаторе с фортепьянной клавиатурой. Да, многие из граждан этих стран, обученные в западной традиции, будут знать западную же нотацию, однако корреляция может оказаться существенно ниже, чем на Западе, хотя процент умеющих играть вполне может быть даже выше.

Тут я уточню: я сейчас не утверждаю, что во всех таких странах так и есть, или так и есть хоть где-то. Я утверждаю, что так вполне может быть.

Иными словами, в «доказательстве» пропущено крайне важное звено: чтобы утверждать, что именно Икс вызывает Игрек (а не просто «тоже мог бы его вызывать»), мало доказать, что Икс коррелирует с Игрек или часто встречается одновременно с ним. И даже мало доказать, что Игрек редко когда встречается без Икса там, где мы посмотрели. Надо доказать, что Игрека принципиально не бывает без Икса. Причём не на какой-то одной выборке, пусть даже большой, а не бывает вообще. Вот тогда они правда связаны именно в том смысле, в котором предполагалось между строк: вызывают один другого или вместе вызываются каким-то третьим явлением.

В более мягком варианте следует аналогично доказать, что без Икса Игреки получаются мелкими и горькими. То есть Икс не единственный способ получить Игрек, однако только при нём Игрек получается качественным.

А эти выводы делаются уже не просто на основе механического подсчёта корреляции в рамках некоторого исследования. На его основе мы доказали лишь то, что в данных конкретных условиях (например, «в данный момент в России») мы могли бы по одному параметру (например, по «умению играть на фортепьяно») определённым способом предсказывать значение другого (например, «знание классической музыкальной нотации»).

Но это никак не гарантирует и не доказывает того, что одно вызвано другим, одно помогает другому или они одновременно вызваны чем-то третьим.

Обнаруженные нами корреляции и распределения вполне могут оказаться, например, результатом «условий среды», причём для рассмотренного тут примера возможное альтернативное объяснение такого рода даже очевидно.

Предположим, долгое время считалось, что какая-то конкретная музыкальная нотация способствует обучению игре. В это поверили почти все, а потому почти во всех учебных заведениях (не только в академических) вместе с обучением игре обучали и такой нотации. Вполне понятно, что в этом случае большинство умеющих играть будет знать эту нотацию. А не знать её будут лишь самоучки или ловко уклонявшиеся от оной нотации в процессе обучения.

Именно вот этот эффект мы и измерим в виде коэффициента корреляции.

Причём заметьте, тут даже нельзя сказать, что умение играть и знание нотации вызываются одним и тем же третьим фактором: ведь обучаться игре, как показывает практика других регионов или времён, можно не только в этих учебных учреждениях. А в самих этих учреждениях при ином стечении обстоятельств могла бы использоваться иная нотация — как в другие времена и/или в других регионах.

Получается, если что-то тут и можно объявить «внешним фактором, обусловившим оба явления», то только то самое «стечение обстоятельств». Однако применение термина «фактор» в данном случае скорее дезинформирует: ведь, по сути, в этом случае будет сказано: «Так получилось, потому что так получилось».

В результате, чтобы доказать связь одного с другим, надо было бы провести целый ряд исследований, в которых бы доказывалось, что использование любой другой нотации приводит к неумению играть или хотя бы радикально затягивает обучение при прочих равных. Это было бы доказательством того, что именно такая нотация оказывается объективно способствующим обучению игре фактором.

Или хотя бы доказать, что к тем же последствиям приводит отказ от какой-либо нотации при обучении, а с вот этой всё-таки получается как-то лучше. Это уже не докажет, что данная нотация — эксклюзивная и лучше всех остальных, но всё-таки докажет, что лучше с такой, чем вообще без какой-либо. То есть она не обязательно лучшая из всех, но всё-таки лучше, чем никакой.

Что же мы доказали без этих дополнительных исследований? Да ничего, кроме вышеупомянутого «в данных условиях по значению одного параметра можно спрогнозировать значение второго».

Положим, вместо музыкантов мы бы изучали художников какого-то региона, и обнаружили, что все они используют краски, сделанные по одним и тем же рецептам одним и тем же способом. Означало бы это, что только с таким рецептом красок можно научиться рисовать? Или что с такими красками легко, а с другими было бы тяжело? А может быть, что эти краски лучше других?

Может быть. Но ещё может быть, что в этом регионе есть единственный завод, производящий краски. Или что местным ремесленникам известен только этот рецепт. Или что у них есть ингредиенты только для этого рецепта.

Или, например, в каком-то регионе используют для верховой езды только две породы лошадей. Только на них можно научиться ездить? Именно на них легче всего учиться ездить? Только на них можно ездить? Именно на них лучше всего ездить?

Может быть. Но может быть, что только эти две породы подходят к климату этого региона. Или только они были в наличии в стародавние времена, а потому их и продолжают здесь разводить, а другие пришлось бы покупать где-то далеко. Или, быть может, религия запрещает ездить на других лошадях. Или местные жители привыкли к внешнему виду именно этих лошадей, а потому другие не пользуются спросом. И ещё куча вариантов.

Да, наша первая гипотеза вроде бы подходит в качестве объяснения: не противоречит экспериментам и наблюдениям. Но это не доказывает, что именно это объяснение — верное. Чтобы это доказать, надо доказать ещё и то, что всё остальное не подходит в качестве объяснений. Пока этого не сделано, гипотеза может считаться объяснением, но лишь только одним из возможных. Не «Икс вызывает Игрек», а «Икс мог бы вызывать Игрек». Хотя сплошь и рядом в выводах будет написано: «Таким образом, мы доказали, что вызывает».

Надо отметить, что аналогичная ошибка в рассуждениях далеко не редкость: её относительно часто совершают не только «обыватели», но и учёные, включая даже известных. Изрядная часть «общеизвестных фактов» как бы «доказана» ровно тем же способом и с той же ошибкой: посчитана корреляция между двумя явлениями или иным статистическим способом отслежено ей аналогичное, а потом без каких-либо ещё логически и статистически необходимых исследований объявлено, что одно явление вызывает другое или хотя бы обязательно идёт бок о бок с ним.

В качестве примеров можно привести тезисы о том, что «мелкая моторика приводит к развитию речи и мышления в целом» (на деле же в лучшем случае проверено, что дети, с которыми больше занимались, и лучше говорят, и лучше действуют руками, чем те, с которыми меньше занимались) или часто упоминаемый в разговорах «эффект Даннинга—Крюгера» (на деле там «доказано», что обработка данных именно таким способом и в таком случае даёт вот такой статистический результат — который был бы и без предположенного ими эффекта).

В общем, не делайте так и не верьте на слово тем, кто так делает.

Лекс Кравецкий :