Экспертная оценка (peer review) — необходимый процесс, в котором качество нового исследования проверяется другими экспертами в той же области. Качество сегодняшних конференций по компьютерному обучению (ML) в значительной степени зависит от экспертной оценки, так как она позволяют оценивать поданные статьи на соответствие принятым стандартам. Тем не менее, ряд недавних инцидентов и дискуссий в социальных сетях выявили необходимость проверки самой процедуры экспертной оценки.
Результаты отсутствия механизмов воспроизводимости результатов
По итогам ежегодной Конференции по компьютерному зрению и распознаванию образов (Computer Vision and Pattern Recognition, CVPR) выпускается один из трёх лучших в мире академических сборников в области компьютерного зрения (наряду с ICCV [International Conference on Computer Vision] и ECCV [European Conference on Computer Vision]). Одна из статей, принятая к публикации в сборнике CVPR 2018, недавно попала под вопрос. Пользователь Reddit утверждал, что предложенный автором метод не может обеспечить обещанную точность:
Идея, описанная в статье с названием «Пертурбативные нейронные сети» (Perturbative Neural Networks), заключается в замене свёртки 3×3 на свёртку 1×1, а к входным данным добавляется некоторый шум. Утверждалось, что такой алгоритм работает так же хорошо, как и со свёрткой 3×3. Мне это показалось подозрительным, поэтому я решил проверить. К счастью, авторы предоставили свой код, но при ближайшем рассмотрении выяснилось, что они неправильно посчитали точность тестирования. Поэтому результаты не могут считаться валидными.
Ведущий автор статьи Феликс Цзюэфэй Сюй (Felix Juefei Xu) быстро среагировал:
Мы перепроверим все наши эксперименты. Согласно полученным результатам мы обновим нашу документацию на arXiv, а также репозиторий в GitHub. И если новые результаты будут действительно намного хуже, чем те, которые указаны в первой версии статьи, мы отзовём её.
Пост на Reddit, который спровоцировал такую перепроверку, обращает внимание на не очень популярную до недавнего времени проблему. Заключается она в том, что рецензенты обычно недостаточно вкладываются в написание рецензий, они не проверяют программный код и не пытаются воспроизвести результаты эксперимента. Они скорее склонны полагаться на честность и компетентность авторов.
Некоторые ML конференции начали искать практические решения этой проблемы. В 2017 году исследователи из Монреальского института изучения алгоритмов (Montreal Institute for Learning Algorithms), Google Brain и Университета Макгилла (McGill University) организовали Международную конференцию по обучению представлениям (International Conference on Learning Representations, ICLR), где они уделили особое внимание вопросам воспроизводимости и тиражирования результатов исследований в области ML. В прошлом году семинар запустил марафон по воспроизводимости и призвал проверить воспроизводимость эмпирических результатов, представленных в ICLR 2018.
Отсутствие квалифицированных рецензентов
В одной из записей, опубликованных в начале этого года в Synced, пользователь Reddit, идентифицировавший себя как докторанта, сказал, что он был выбран в качестве рецензента для Конференции по машинному обучению и нейровычислениям (Conference on Neural Information Processing Systems, NIPS). Он попросил дать ему совет, как правильно писать рецензии для статей:
«Я начинаю учиться в аспирантуре этой осенью. Я никогда не публиковал и не рецензировал статьи для этой конференции раньше. Как выбрать, какие статьи рецензировать? Может в NIPS есть какая-то документация, где были бы инструкции для рецензентов? И самое главное, как мне написать хорошую рецензию?»
Многие комментаторы поставили под сомнение пригодность автора в качестве рецензента NIPS. Старший преподаватель Университет имени Бар-Илана (ивр. אוניברסיטת בר-אילן) в Израиле и известный специалист по обработке естественного языка Йоав Голдберг (Yoav Goldberg) саркастически написал в твиттере:
Ага. Это «экспертная оценка», а не «оценка человека, который сделал 5 обзоров учебных пособий по TensorFlow.
На NIPS 2017 было подано рекордное количество статей — 3240, и ожидается, что их количество в этом году приблизится к 5000. Кто-то должен прочитать все эти материалы. Организаторы NIPS не имеют возможности справиться с растущим потоком статей иначе как расширением штата рецензентов. Но естественно, что исследователи ИИ, которые тратят месяцы или даже годы на исследования, результаты которых могут быть опубликованы в одной статье, будут серьёзно обеспокоены по поводу того, что, возможно, их статьи для лучшей конференции в этой области будет читать неквалифицированные рецензенты.
Термин «рецензент» традиционно указывал на то, что отзыв оставляет кто-то с аналогичным авторскому уровнем компетентности и опыта. Но быстрый рост исследований по ML приводит к тому, что квалифицированные рецензенты оказываются в дефиците. Помощник профессора в университете Карнеги — Меллона (Carnegie Mellon University) д-р Захари Липтон (Zachary Lipton) оставил в Твиттере следующую запись: «Для уничтожения области знаний достаточно лишь, чтобы она стала популярной. Если количество заявок на конференцию в области ML выросло с 4000 до 20000, значит число квалифицированных рецензентов на статью упало с 50% до 10%. Но это уже не может считаться полноценным рецензированием».
Как двойное слепое рецензирование может быть саботировано
Исследования показали, что на рецензентов часто влияет авторитет авторов статьи и их аффилиация. Поэтому лучшие конференции по ML теперь прибегают к двойному слепому рецензированию, в котором рецензентам не известны имена авторов представленных статей.
Но это не означает, что двойная слепая экспертная оценка будет идеальным решением. Статью, отправленную на ICLR 2019, недавно много комментировали в положительном ключе на сайте OpenReview — открытые рецензии («интересная работа», «многообещающие результаты» и т. д.). Это вызвало подозрение у одного комментатора:
На данный момент лишь у некоторых статей к ICLR 2019 есть комментарии. А у вашей уже семь. И все они положительные. Я думаю, вам уже ясно, о чём я говорю. Можно легко догадаться, что вы делаете. Пожалуйста, прекратите. Это не принесёт вам никаких преимуществ.
Интернет-журнал Synced проверил наличие этих комментариев на OpenReview и не нашёл их, — большинство из них были удалены.
Цель двойной слепой экспертной оценки заключается в минимизации предвзятости. Но не только авторитет авторов и институтов, в которых они работают, может влиять на мнение рецензентов — влиять могут и положительные или отрицательные отзывы других рецензентов. Например, ICLR не запрещает авторам размещать свои документы на arXiv или любых других площадках для обсуждения. Недавно статья «Масштабная тренировка GAN для высокого качества синтезирования естественных образов» (Large Scale GAN Training for High Fidelity Natural Image Synthesis) сильно активизировала дискуссию в социальных сетях. В статье представлена модель порождающей состязательной сети, способная генерировать впечатляющие изображения с высокой точностью (но с низким разнообразием). Некоторые люди в сообществе обеспокоились тем, что поток положительных комментариев под публикацией может предоставить статье преимущество в процессе рецензирования.
Создаёт ли экспертная оценка тревожные тенденции в публикациях по ML?
На ICML 2018 доктор Липтон из Университета Карнеги — Меллона и аспирант Стэнфорда Джейкоб Штайнхардт (Jacob Steinhardt) из Стэнфорда (Stanford University) опубликовали заметку «Тревожные тенденции исследований в области машинного обучения» (Troubling Trends in Machine Learning Scholarship). Она нацелена на обличение научных работ в области ML, которые «скрывают погрешности неполнотой объяснения процедуры получения результата», «грешат математической сложностью» и «стараются навести всяческую неясность». В статье поставлен вопрос, разрешаются или усугубляются вышеупомянутые проблемы процессом экспертной оценки.
Некоторые исследователи утверждают, что процесс коллегиального обзора использует плохие практики и идёт по ненаучному пути, и что это отрицательно влияет на то, как авторы пишут и оформляют свои документы. Исследователь из Google д-р Ян Гудфеллоу (Ian Goodfellow) отметил, что рецензенты, как правило, читают по диагонали сложные математические уравнения в статьях по ML, поэтому их легко убедить в правильности новых методов, даже если последние содержат ошибку. Он предположил, что некоторые авторы «затачивали» свои статьи под то, чтобы нравиться рецензентам, и чтобы таким образом просочиться в мир науки. «Экспертная оценка — это в принципе хорошая идея, но важно правильно реализовать её на практике», — прокомментировал Гудфеллоу.
Главный научный сотрудник Facebook Ян Лекун (Yann LeCun), тем временем, более широко смотрит на картину. Он написал в своём блоге, что «наша нынешняя система с акцентом на серьёзном уровне отбора очень предвзято относится к инновационным идеям и способствует продвижению мелких усовершенствований по хорошо зарекомендовавшим себя методам».
Есть ли какие-то решения?
Журнал Wired недавно рассказал, что научное издательство Elsevier, одно из крупнейших в мире, разработало программу на основе ИИ, EVISE, предназначенную для помощи в экспертной оценке. Программа отсылает текст статьи в стороннюю программу для проверки на предмет плагиата; выбирает подходящих рецензентов, чтобы избежать конфликта интересов; предлагает рецензентов, которые лучше разбираются в теме статьи; и даже посылает благодарственные письма рецензентам. Пока неизвестно, используют ли крупные конференции по машинному обучению похожие программные инструменты-помощники в рецензировании.
Некоторые исследователи ML в то же время предлагают обновить методики публикационного процесса. Лекун представил модель, в которой поведение участников было бы похоже на поведение финансовых агентов на стоковой бирже. В ней статьи играют роль ценных бумаг, а рецензенты — инвесторы. Все статьи и обзоры открыты для публики. Ожидается, что рецензенты будут разбирать и критиковать статьи в соответствии с самыми высокими стандартами качества, будут давать информативные и глубокие комментарии, потому что репутация рецензентов будет расти вместе с качеством рецензируемой стати.
Профессор Информационной инженерии Кембриджского университета (University of Cambridge) Зубин Гахрамани (Zoubin Ghahramani) предлагает дополнить эту модель так: конференциям и журналам ограничивать количество статей, доступных для отзыва каждому рецензенту. Если для статьи не найдётся рецензентов, её авторы могут её отозвать или отправить на другую конференцию.
Понятно, что традиционные подходы к экспертной оценке начинают устаревать по мере того как число исследований и статей в области ML растёт. Так как приближается конференция NIPS и другие крупные конференции по ИИ и ML, нам необходим новый подход, если мы хотим придерживаться стандартов качества статей. Наши товарищи по исследованию машинного обучения достаточно умны, нужно просто объединить силы и работать вместе, чтобы придумать практичный и эффективный новый механизм рецензирования.