Недавняя публикация первых результатов, полученных в ходе реализации проекта «Воспроизводимость: биология раковых заболеваний» (Reproducibility Project: Cancer Biology), вызвала дискуссию. В кратком описании проведённых в рамках данного проекта исследований Носек и Эррингтон [1] попытались чётко объяснить, что такое репликация, какие результаты эксперимента-репликации «те же», а какие — другие и как интерпретировать расходящиеся результаты оригинального и репликативного исследований. Были и другие комментарии. Почти все их авторы так или иначе разошлись в выводах, что сделало проблему воспроизводимости ещё более запутанной. Воспроизводимость выводов производит гнетущее впечатление.
Несколько авторов оригинальных работ и ряд комментаторов поставили под сомнение данную попытку исследовать воспроизводимость. Эти специалисты выступают в защиту оригинальных открытий, интерпретируя репликации скорее как успешные, чем неудачные. Они отмечают разнообразные недостатки репликаций, например неподходящие статистические методы или плохую организацию экспериментов. Они сожалеют о незаслуженном унижении, которому подвергаются великие учёные после провала неряшливо осуществлённых репликаций. Они обеспокоены тем, что проверки воспроизводимости перечёркивают научные открытия и препятствуют переводу статей о перспективных исследованиях. Они задаются вопросом, стоит ли транжирить деньги на репликации.
Споры о воспроизводимости идут не только в лабораторной науке. В прошлом году сходная дискуссия разразилась в психологии. Здесь проект исследования воспроизводимости вызвал бурный обмен техническими комментариями [2], хотя и полученные данные были гораздо более обширными (целых 100 экспериментов вместо всего лишь пяти предварительных), и участвовало в этом проекте множество лучших психологов (270 учёных и их команды). Тем не менее, некоторые известные учёные-психологи пришли к выводу, что в их сфере деятельности никакой проблемы воспроизводимости нет и что исследование воспроизводимости — пустая трата времени. Такая позиция сразу же вызывает вопросы. Если психология — чуть ли не образец совершенства, как могло случиться, что 270 лучших психологов мира, работавших в оптимальных условиях открытости и применявших самые строгие протоколы и методы, совершили массу ошибок? Если эта серия экспериментов, беспрецедентная по жёсткости контроля и тщательности проведения, оказалась настолько ущербной, чего хорошего следует ожидать от других, более скромных психологических исследований? Недавно подобные дискуссии вспыхнули и в клинической медицине. Они связаны с попытками повысить открытость и прозрачность исследовательской работы, а также обеспечить полную доступность необработанных данных и протоколов [3]. Открытость может сделать повторный анализ клинических данных рутинным занятием. Диапазон высказанных в ходе дискуссии мнений оказался широким: от вдумчивых предложений, направленных на улучшение открытости и прозрачности, до скептических заявлений о том, что всё это способно принести вред, и эмоциональных тирад, направленных против тех, кто «паразитирует на клинических исследованиях». Среди защитников проблемного статус-кво оказалось несколько весьма влиятельных учёных и исследователей.
Аналогичную защиту статус-кво можно наблюдать и в лабораторной науке. Проведённые ранее исследования воспроизводимости дали коэффициенты воспроизводимости <25% для лучших работ в сфере фундаментальной и доклинической биомедицины [4]. Основные претензии к самым масштабным исследованиям такого рода, осуществлённым на сегодняшний день, состоят в том, что, во-первых, их проводили фармацевтические компании и, во-вторых, нет открытого доступа к полученным данным. Проект «Воспроизводимость: биология раковых заболеваний» вышел за указанные рамки, однако критика усилилась.
Дискуссия возникла даже в связи с успешной репликацией. Как и ожидалось, циметидин дал положительный эффект против рака лёгких, воспроизведённого в ксенотрансплантатах мыши, но при P = 0,05 результаты формально не представляют статистической значимости. Величина эффекта — вот что важно. В репликации она оказалась меньше, чем в оригинальном эксперименте, но всё же заметной. Доверительные интервалы в значительной степени совпали. Конечно, было бы здорово получить номинальную статистическую значимость, но это не так важно. Тем не менее, завязалась дискуссия о том, насколько уместна коррекция на множественное тестирование, применённая учёными-репликаторами в статистическом анализе. Хотя к оригинальному исследованию такую коррекцию применили, в целенаправленной репликации она не всегда является необходимой. Что ж, кое-какую пользу эта дискуссия принесла. Но вот что интересно: протокол и план анализа репликации были в свободном доступе, их заблаговременно предоставили авторам оригинального исследования для комментариев, редактирования и внесения поправок, однако, пока репликация не была проведена, никто из этих исследователей никаких изменений в план анализа не внёс. То, что ведущие учёные post hoc стремятся скорректировать план анализа, чтобы получился формально значимый статистический результат, заставляет задуматься. Возможно, именно здесь кроется ответ на вопрос, почему погоня за статистической значимостью post hoc настолько распространена в биомедицинской литературе, что статистически значимые результаты имеют аж 96% работ, опубликованных с P-значениями [5].
Для двух из пяти оригинальных исследований репликаторы не смогли сделать так, чтобы репликативные данные всей цепочки лабораторных опытов совпадали с оригинальными. Например, была предпринята попытка воспроизвести на мышах противоопухолевую активность антитела к CD47. Оказалось, что в оригинальных и репликативных экспериментах 95-процентные доверительные интервалы всех поддающихся измерению результатов значительно расходятся. Различия в точечных оценках были почти 50-кратными. Однако возникла и непредвиденная проблема. Опухоли у мышей контрольной группы, в основном, росли медленно и даже спонтанно регрессировали — явление, не зафиксированное в ходе оригинального исследования. Авторы последнего заявили, что были бы рады, если бы репликаторы посетили их лабораторию для изучения техники проведения экспериментов. А вот другой случай: оригинальное исследование показало, что мутации в гене PREX2 (фосфатидилинозитол-3,4,5-трифосфат зависимый фактор обмена Rac2) усиливают рост меланомы, но репликаторы обнаружили, что опухоли быстро возникают как в клетках с мутациями, так и в клетках без мутаций. По-видимому, поведение клеток стало иным по сравнению с оригинальными экспериментами.
Редактор журнала eLife назвал эти две репликации «неинтерпретируемыми». Любой, кто работает в лаборатории, знает, как сложно применять некоторые методы исследования, если информация о них имеется лишь в сжатом виде — в маленьком разделе «Методы» рецензируемой статьи. Когда несколько учёных и лабораторий не могут заставить работать какой-то метод, слухи об этом немедленно проникают в коридоры, в неофициальные чаты электронной почты, заполняют перерывы научных совещаний. «Я не смог применить этот лабораторный метод» — хорошо известно, что в настоящее время подобное признание трудно опубликовать где-то на страницах рецензируемых изданий, хотя такой обескураживающий конфуз — отнюдь не редкость в исследовательской деятельности. Иногда действительно хороший выход — взять и посетить лабораторию, в которой придумали строптивый метод. Однако по многим причинам это не всегда осуществимо или желательно. Более того, необходимость таких визитов говорит о том, что научная статья — скорее реклама, чем солидный отчёт, дающий возможность воспроизвести проведённую научную работу во всех её существенных моментах. Если бы исследования воспроизводимости всего лишь повысили информативность и полезность разделов «Методы» до уровня безупречной содержательности и функциональности, одно это означало бы заметное продвижение вперёд.
Наиболее ожесточённые споры возникли, когда репликаторы повторили все оригинальные эксперименты в соответствии с планом их проведения, но всё же не смогли воспроизвести изначально полученные результаты с доверительными интервалами, исключающими случайность. Автор оригинального исследования усомнился в компетентности этих репликаторов, а также в научной значимости их данных и пожаловался на ущерб, причинённый делу закрепления результатов его научной работы. Нашлись учёные, которые, выражая поддержку, заявили о том, что им удалось воспроизвести оригинальные данные. Я внимательно изучил эти «успешные» репликации. Оказалось, что, в основном, они не имеют прямого отношения к экспериментам «пострадавшего» автора. Например, в качестве репликативной заявлена работа, о которой сообщается в подборке новостей журнала Nature, но в этой работе идёт речь о гепатоцеллюлярной карциноме, тогда как оригинальное исследование посвящено карциноме предстательной железы. В других заявленных репликациях фигурируют не те опухоли, не те экспериментальные системы, не те противоопухолевые пептиды, не те условия проведения экспериментов и т. д.
Такая ситуация характерна для лабораторной медицины. В реальности весьма проблематично воспроизвести что-то точно так же, как было сделано в первый раз. Хочется сказать что-то новое, сделать что-то по-другому. В результате получается не точная, а концептуальная репликация. Затем, когда наборы данных, относящихся к одному и тому же объекту исследования, существенно разнятся, смышлёный учёный сплетает из них ткань нарратива, последовательного повествования. Таким образом, триангуляция превратилась в искусство создания биологических сказок. Не спорю, что в некоторых случаях концептуальная репликация и триангуляция могут быть полезными. Однако у них есть серьёзный недостаток: с их помощью в нарратив можно втиснуть чуть ли не всё, что угодно, используя в качестве связующего клея некое спекулятивное «биологическое правдоподобие».
По-видимому, большинство концептуальных и триангуляционных связей — опрометчивые скачки веры. Иначе очень сложно объяснить, почему в нашей фундаментальной науке так много успешно внедрённых нарративов и при этом так мало открытий, приносящих реальную пользу. Более того, опубликованная концептуальная репликация, проведённая по ранее не применявшемуся плану и/или в новых экспериментальных условиях, ничего не говорит о том, сколько лабораторий пытались сделать подобное, и сколько разнообразных планов и экспериментальных условий оказались неудачными и остались неопубликованными. В современном научном мире с изощрённой выборочной отчётностью и погоней за формально значимыми результатами нельзя узнать, сколько — 0, 3, 10 или 100 — провалившихся экспериментов и их разновидностей приходится на каждое успешно проведённое и опубликованное исследование. Вот почему предлагаемая в рамках проекта исследования воспроизводимости предварительная регистрация попыток осуществить репликацию имеет большое значение. Проект предусматривает предварительную регистрацию подробного протокола и даже отчёта. По сути, ещё до проведения экспериментов должна быть написана статья (без использования конкретных числовых значений). Такой подход к делу решает проблему тенденциозной выборочной отчётности.
Изучая воспроизводимость лабораторных биомедицинских исследований, мы сделали пока лишь первые шаги. Нам явно нужно продвинуться гораздо дальше. Неважно, успешна или неудачна репликация, — в любом случае она даёт пищу для размышлений. Речь не о том, чтобы кого-то позорить и бросать тень на чью-то репутацию. Речь о том, насколько надёжны наши наблюдения и будет ли от них когда-то практическая польза. Тем, кто спрашивает, какую сумму ежегодно следует тратить на репликации, отвечу так: по-видимому, в тысячу раз больше, чем сейчас, не меньше. Осуществление всего проекта «Воспроизводимость: биология раковых заболеваний» стоит 2 миллиона долларов США, при этом ежегодные пустые траты в сфере биомедицинских исследований составляют десятки, а может и сотни миллиардов. Для изменения ситуации к лучшему решающее значение будет иметь степень понимания того, насколько необходимы исследования воспроизводимости. Лабораторные исследования представляют огромную важность. Мы не должны мириться с тем, что их достижения тонут в море невоспроизводимых результатов.
Литература
- Nosek BA, Errington TM. Making sense of replications. Elife 2017; 6:e23383
- Open Science Collaboration. Estimating the reproducibility of psychological science. Science 2015; 349:aac4716
- Emmert-Streib F, Dehmer M, Yli-Harja O. Against dataism and for data sharing of big biomedical and clinical data with research parasites. Front Genet 2016; 7:154
- Begley CG, Ioannidis JP. Reproducibility in science: improving the standard for basic and preclinical research. Circ Res 2015; 116:116 — 26
- Chavalarias D, Wallach JD, Li AH, Ioannidis JP. Evolution of reporting P values in the biomedical literature, 1990 — 2015. JAMA 2016; 315:1141 — 8