Sci-Hub хранит 85% научных работ, спрятанных на сайтах журналов за пейволлом (paywall), утверждают учёные из США и Германии. Они проанализировали список статей, хранящихся в репозиториях сервиса и заключили: пиратский сайт стал настолько мощным, что рискует подорвать существующую издательскую модель. Переход на бесплатное распространение научного знания практически неизбежен, считают авторы нового исследования. Нерецензированный препринт своей работы они выложили в открытый доступ на сайте журнала PeerJ.
19 марта Sci-Hub опубликовал в Твиттере список всех статей, хранящихся в репозиториях проекта. Этот текстовый файл весил полтора гигабайта и содержал DOI научных работ в алфавитном порядке. Список попался на глаза Даниэлю Химмельштейну (Daniel Himmelstein) из Пенсильванского университета (University of Pennsylvania) «Ух ты, мы можем узнать о работе сервиса столько нового!», — подумал учёный. Прежде всего его интересовало, насколько обширна база сервиса — и речь не об отвлечённых цифрах, а о том, какая доля всех научных работ хранится в Sci-Hub.
Как и основательница Sci-Hub Александра Элбакян, Химмельштейн был сторонником движения за «открытую науку». Поэтому своё исследование он решил сделать максимально прозрачным — все материалы, в том числе, черновики статьи, выложили на GitHub. Оттуда же пришли некоторые соавторы, заинтересованные проектом. «Ключевой этап состоял в том, чтобы выяснить, сколько вообще научных статей существует на данный момент, — рассказывает Химмельштейн. — Для этого мы использовали данные Crossref — базы данных DOI. Это не единственная подобная база, однако её издательства научных журналов используют чаще всего». Отфильтровав нерелевантные данные о книгах, номерах журналов и так далее, учёные составили список из 81,6 миллионов статей. «Этот этап был очень важным, потому что мы получили знаменатель дроби. Исследователи, которые изучали Sci-Hub раньше, неверно подошли к этому шагу — чтобы узнать, какой процент научной литературы покрывает Sci-Hub, вы должны знать общее количество», — комментирует Химмельштейн.
Учёные обнаружили, что пиратский сервис хранит на серверах 68,9% всех статей, в том числе 85,2% работ за пейволлом. Однако на практике Sci-Hub всегда может достать то, чего у него ещё нет, если того пожелает пользователь. Проанализировав данные о запросах за 2015—2016 год, учёные подсчитали, что в этот период сервис открывал доступ к статьям в 99% случаев. «Из этого можно сделать вывод о том, что 31% работ, которых нет в базах Sci-Hub, люди просто не запрашивают», — комментирует Химмельштейн.
Чаще всего люди обращались к пиратскому сервису, когда у них не оставалось другого выбора — анализ показал, что в репозиториях Sci-Hub гораздо больше статей, опубликованных в закрытом доступе, 85,2% против 49,1%. Наиболее полно представлены работы по химии — базы Sci-Hub покрывают 93% всех статей. Второе место занимает химическая технология (92%), на третьем материаловедение (91%), на четвёртом — фармакология (89,7%), а на последнем — информатика (76%). «Эти результаты могут быть связаны с издательской практикой в этих областях — мы обнаружили, что журналы, публикуемые в закрытом доступе, представлены на сервисе лучше», — говорит Химмельштейн.
Учёные так же коснулись финансирования и популярности Sci-Hub. С недавнего времени сайт принимает пожертвования только в биткоинах, поэтому исследователи смогли получить данные о транзакциях. За последние два года проекту пожертвовали 92,63 биткоина, что на момент транзакции составляло 60 358 долларов, а по нынешнему курсу равняется 175 000. «Судя по пожертвованиям, многие пользователи ценят услуги Sci-Hub», — заключают авторы. К тому же о сервисе узнаёт все больше людей, и никакие усилия борцов за авторские права не могут этому помешать. Наоборот, судебные претензии крупных издательств только привлекают внимание к пиратскому сайту — об этом говорят данные Google Trends. «Они делают Sci-Hub бесплатную рекламу, — говорит Химмельштейн. — Я не думаю, что эти иски остановят Sci-Hub».
Если на пиратском сайте можно найти столько «закрытых» статей, устойчивость нынешней издательской модели под угрозой, считают авторы. Развитие новых технологий только усугубит проблему — если сейчас сервера Sci-Hub можно найти и выключить, то вскоре эти базы можно будет хранить децентрализованно, и за сервисом не будут стоять конкретные люди. Переход к новой модели, которая позволит читать любые научные статьи бесплатно, практически неизбежен, пишут учёные. Но просто читать мало — авторы призывают коллег выкладывать свои работы под открытыми лицензиями, чтобы другие исследователи могли использовать их, не боясь санкций.