Выпущены инструменты автоматического рецензирования на основе ИИ — чтобы облегчить задачу оценки статей

С недавних пор стал доступен набор автоматизированных инструментов, помогающих рецензентам писать отзывы на статьи. Но и при их использовании основное решение — брать или не брать статью в журнал — принимают люди.

У большинства исследователей есть все основания, чтобы быть недовольным системой рецензирования: процедура занимает много времени, велика вероятность допустить ошибку, рабочая нагрузка среди учёных распределяется неравномерно: задача оценить большую часть работ ложится на плечи 20 % от всех исследователей в той или иной области.

Инструменты на основе искусственного интеллекта могут в некоторой степени автоматизировать процесс рецензирования, и это может улучшить качество рецензий на выходе. На самом деле, это возможность одним махом и повысить качество опубликованных статей, и сэкономить время рецензентам.

Несколько научных издательств сейчас экспериментируют с такими инструментами, делегируя им задачи от выбора рецензентов до проверки статистики в статье и до текстуального обобщения результатов работы.

В июне программное обеспечение под названием StatReviewer, проверяющее корректность статистики и методов в научных статьях, было принято на вооружение Aries Systems, системой управления экспертными оценками, принадлежащей издательскому гиганту Elsevier из Амстердама.

Помимо того, ScholarOne, платформа по трекингу рецензий, используемая многими научными журналами, начала сотрудничать с компанией UNSILO из Орхуса, Дания (дат. Aarhus Universitet). Последняя применяет обработку естественного языка и машинное обучение для анализа качества статей. Программный продукт UNSILO умеет автоматически выводить на экран ключевые понятия, обобщающие смысл статьи.

Что важно, финальное решение — что делать со статей, принять или отклонить — всегда остаётся за редактором.

«Эти инструменты не заменяют редакторских решений, но, слава богу, они значительно упрощают нам жизнь», — рассказывает Дэвид Уорлок (David Worlock), издательский консультант из Британии, — он был на презентации UNSILO на Франкфуртской книжной ярмарке в Германии.

Принятие решений

UNSILO использует семантический анализ, чтобы извлечь из текста статьи основные утверждения (или то, что он идентифицирует как оные). С помощью этого инструмента мы можем получить лучшее представление о статье, чем с помощью ключевых слов, предоставляемых авторами, говорит Нил Кристенсен (Neil Christensen), директор по продажам UNSILO.

«Мы находим ключевые фразы в тексте — говорит он, — вместо того, чтобы просто брать графу keywords, которую авторы заполнили за пять минут до отправки».

На следующей стадии UNSILO определяет, какие из этих ключевых фраз с наибольшей вероятностью будут лучше всего представлять выводы статьи. В результате работы программы редакторы имеют на руках краткий обзор результатов исследования. В нем также указывается, дублируют ли статьи утверждения, высказанные ранее в других статьях. Этот функционал может быть использован как для обнаружения плагиата, так и для того, чтобы иметь перед глазами более широкий контекст исследования.

«Наш инструмент не принимает решений, — говорит Кристенсен. — Он просто говорит, что „вот некоторые вещи, выделяющиеся среди того, что было написано ранее по этой теме. Оцени, пожалуйста, научную ценность выводов этой статьи“».

Рабочая версия UNSILO получает информацию из базы научных статей PubMed Central, и это даёт возможность сравнивать текст входящей работы с текстами опубликованных за всё время биомедицинских научных статей (1,7 миллиона). Это большой, но ограниченный набор данных. Компания заявляет, что для анализа в скором времени будет добавлено ещё более 20 миллионов статей PubMed. Помимо этого UNSILO сотрудничает со ScholarOne, проектом, принадлежащим фирме Clarivate Analytics, базирующейся в Филадельфии, штат Пенсильвания. Такое сотрудничество предоставит UNSILO доступ к ещё большему объёму статей, в том числе из базы данных Clarivate Web of Science.

Джулиано Мачоччи (Giuliano Maciocci), возглавляющий группу по инновациям кембриджского журнала eLife, Великобритания, говорит, что UNSILO предоставляет интересное решение некоторых действительно неприятных проблем в рецензировании, но eLife в ближайшем времени не собирается внедрять эту технологию. «Мы не уверены, что это будет особенно полезно для такого журнала, как наш, где оценка реальных экспертов и кураторство живых специалистов важны, как никогда», — говорит он.

Уорлок отмечает, что сейчас в разработке находится несколько подобных инструментов. Например, сам он — член правления Wizdom.ai, лондонского стартапа, принадлежащего издателям Taylor & Francis. Стартап занимается разработкой программного обеспечения, которое сможет анализировать тексты из баз статей и находить в них связи между различными дисциплинами и концепциями. Он говорит, что такой инструмент будет полезен не только для процедуры рецензирования, но и для таких задач, как написание грантовых заявок или обзоров литературы.

От плагиата до р-значений

На многих платформах, включая ScholarOne, уже стоят автоматические детекторы плагиата. А такие сервисы, как Penelope.ai, проверяют, соответствуют ли ссылки и структура статьи требованиям журнала.

Некоторые автоматизированные инструменты могут также находить проблемы в области качества исследования. Инструмент Statcheck, разработанный Мишель Нуийтен (Michèle Nuijten), методисткой из Тилбургского университета (Tilburg University) в Нидерландах, и её коллегами, оценивает согласованность авторского преподнесения статистических отчётов, концентрируясь на p-value. Журнал Psychological Science пропускает все свои статьи через эту программу. Нуийтен рассказывает, что другие издатели также стремятся интегрировать инструмент в рутину рецензирования.

Проанализировав статьи, опубликованные в номерах журнала Psychological Science, команда Нуийтен обнаружила, что примерно 50 % содержали по крайней мере одну статистическую несогласованность. В одной из восьми статей ошибка была достаточно серьёзной, такой, что могла изменить статистическую значимость опубликованного результата.

«Это тревожно», — говорит Нуийтен. Однако она не удивлена тем, что рецензенты пропускают такие ошибки. «Не у всех есть время, чтобы изучить все значения, представленные в статистике. Обычно рецензенты заостряют внимание на главных выводах статьи или проверяют логику повествования».

На данный момент Statcheck умеет анализировать только такие статьи, которые используют формат статистики Американской психологической ассоциации.

Создатели StatReviewer, Тимоти Хоул (Timothy Houle) с Медицинского факультета Университета Уэйк-Форест в Северной Каролине (Wake Forest University School of Medicine in North Carolina) и Чедвик ДеВосс (Chadwick DeVoss), генеральный директор технологического стартапа NEX7 в Висконсине, вразрез с предыдущим утверждением, считают, что инструмент можно использовать для оценки статистики не только в одном, но и в разных стандартных форматах и стилях представления, и даже из нескольких научных областей. Чтобы выполнить такую задачу, программа проверяет, указаны ли в статьях и находятся ли в нужном диапазоне такие вещи, как размеры выборки, информация о соответствии критериям двойного слепого метода, исходные данные.

StatReviewer также может распознавать признаки мошеннического поведения, рассказывает ДеВосс. «Такие, как, например, смухлевали ли авторы в статистических выкладках, обманув правила, или упростили входные данные, не учтя тонкости. Если есть сомнения по этому поводу и такой их уровень не допускается в готовых публикациях, это будет звоночком рецензенту, чтобы тот вник в детали в этом конкретном месте».

Автор статьи и рецензенты.

Испытания алгоритма

ДеВосс говорит, что StatReviewer сейчас находится на стадии испытаний в десятках издательств. Когда лондонский издатель тестировал пакет на открытых статьях BioMed Central в 2017-м году, результаты оказались неубедительными — инструмент тогда ещё не анализировал достаточное количество текстов. Но тем не менее давал некоторое понимание, что происходит в представленной на рецензирование статье (BioMed Central теперь планирует продолжение испытаний).

StatReviewer находил такие вещи, которые человеческие рецензенты пропускали, рассказывает Эми Борк-Уэйт (Amy Bourke-Waite), директор по коммуникациям в области открытых исследований в Springer Nature, компании, являющейся собственницей BioMed Central и публикующей журнал Nature.com. Например, алгоритм хорошо справлялся с выделением статей, не соответствующих требуемым стандартам, таким как CONSORT (формат статей, используемый многими издателями).

Борк-Уэйт также сообщает, что авторы статей, на которых тестировался алгоритм, заявили, что им равно удобно работать как с отчётами StatReviewer, так и с отчётами людей-рецензентов

Иногда, по её словам, StatReviewer ошибался, но в определённых случаях его промашки привлекали внимание авторов статей к местам, где статистическая отчётность была представлена размыто.

Пределы автоматизации

ДеВосс считает, что даже если испытания пакета покажут хорошие результаты, всё равно только некоторые журналы захотят купить его. Поэтому он и его коллеги ведут агитацию также среди потенциальных авторов, предлагая им перед отправкой проверять статьи с помощью программы на наличие ошибок.

Конечно, есть места, где ИИ может ошибаться в экспертной оценке. Одна из проблем заключается в том, что средства машинного обучения, натренированные на корпусе ранее опубликованных статей, могут усвоить уже представленные в рецензиях предубеждения. «Если вы создадите систему принятия решений на основе статей, которые ваш журнал принял в прошлом, у неё будут встроенные перекосы», — говорит Ворлок.

Другой недостаток: когда алгоритм по итогу работы даёт статье одну общую оценку, как это делает StatReviewer, то у редакторов может возникнуть соблазн просто положиться на неё и решить отказать в публикации, хотя это может быть не статья плохая, а программа ошиблась, быть говорит ДеВосс.

«Алгоритмы ещё недостаточно умны, чтобы редакторы могли себе позволить принимать или отклонять статью исключительно на основе информации, которую эти алгоритмы извлекают из текста, — говорит Эндрю Престон (Andrew Preston), соучредитель Publons (Новая Зеландия), стартапа по отслеживанию пир-ревью, купленного Clarivate Analytics, использующего машинное обучение для разработки инструмента, который будет рекомендовать рецензентов. — Эти инструменты могут гарантировать, что статья адекватная и соответствует формальным требованиям, но они никак не заменят человеческую работу по оценке статей».

Нуийтен соглашается: «Для оттачивания алгоритмов понадобится ещё некоторое время, но есть много вещей, которые имеет смысл автоматизировать, просто потому что многие вещи в процедуре рецензирования стандартны».

Дуглас Хевен (Will Douglas Heaven) and Александра «Renoire» Алексеева :