«Право на забвение» позволяет гражданам требовать удаления из поисковой выдачи ссылок на данные, которые могут нанести им вред. Оно закреплено в законах государств Евросоюза и некоторых других стран, в частности, России. Однако «право на забвение» не гарантирует того, что информация станет недоступной. Законы несложно обойти — к такому выводу пришли учёные из инженерной школы Тандон Нью-Йоркского университета (The New York University Tandon School of Engineering).
«Наше исследование показывает, что третья сторона, например, активист или частный детектив может получить доступ к удалённым ссылкам и узнать имена граждан, которые запросили их удаление», — говорит один из авторов работы Леонард Дж. Шустек (Leonard J. Shustek). Результаты будут представлены на 16-м ежегодном симпозиуме по совершенствованию технологий обеспечения конфиденциальности (16th Annual Privacy Enhancing Technologies Symposium).
Право на забвение связывают с решением Европейского суда 2014 года. Оно дало гражданам Евросоюза возможность обращаться к поисковым системам с запросом об удалении неадекватной, не соответствующей действительности или устаревшей информации, содержащей их имена или другие персональные данные. По требованию гражданина поисковики убирают ссылки из поисковой выдачи на поддоменах стран-членов ЕС, таких как google.co.uk и google.es, когда запрос содержит его имя. Если имя не упомянуто, URL по-прежнему отображается среди остальных результатов поиска.
Убирая ссылки на страницы из поисковой выдачи, Google уведомляет об этом владельцев сайтов. Некоторые британские СМИ, такие, как BBC, Telegraph и Daily Mail, получив уведомления, опубликовали эти адреса в открытом доступе. 283 из них учёные использовали в ходе своего исследования. Они решили узнать, какие статьи чаще всего попадают под действие закона, кто становится инициатором удаления ссылок, и могут ли третьи лица получить доступ к убранным из поисковой выдачи материалам.
Чтобы определить, какие публикации чаще всего становились жертвами «права на забвение», учёные загрузили все статьи по ссылкам и проанализировали их вручную, а так же с помощью Латентного размещения Дирихле — метода машинного обучения. Наиболее активно поисковики удаляли из выдачи публикации, посвящённые нападениям, половым преступлениям, убийствам, финансовым злоупотреблениям, педофилии и терроризму.
Кроме того, исследователи попытались выяснить, кто был инициатором удаления ссылок. Из загруженных в базу данных статей британских СМИ они отобрали материалы на «скользкие» темы и с помощью инструмента Stanford NER извлекли все упомянутые имена. Затем специальный скрипт искал имена и названия публикаций на британском поддомене Google google.co.uk в формате [«имя», «заголовок»]. Вычислить человека, подавшего запрос, несложно: когда в запрос включено его имя, поисковик убирает URL статьи из выдачи. Исследователям оставалось только посмотреть, какие ссылки исчезнут из результатов поиска. Алгоритм сработал в 103 случаях из 283 и определил 80 человек, которые потребовали удаления информации.
Демографический анализ показал, что большинство тех, кто воспользовался «правом на забвение» были обычными гражданами, а не знаменитостями, как правило, мужчинами в возрасте от 20 до 40 лет. Часто Google убирал ссылки, касающиеся ложно обвинённых и оправданных граждан, а так же тех, кто уже отбыл наказание.
В ходе другого эксперимента исследователи проверили — может ли злоумышленник обнаружить ссылки, удалённые из поисковой выдачи. На этот раз они воспользовались архивом публикаций испанской газеты El Mundo. Так же, как и в первом случае, они извлекли имена из публикаций на определённые темы и отправили запросы в google.es. Если ссылка на материал не попадала в первую десятку результатов, она считалась удалённой. После анализа четырёх тысяч статей учёным удалось найти 2 новых ссылки. Этот результат не кажется впечатляющим, однако авторы исследования утверждают, что потенциальный злоумышленник может использовать ботнеты и «просканировать» не одну газету, а множество крупных европейских СМИ. Исследователи подсчитали, что третьи лица смогут найти 30—40% удалённых ссылок на статьи.
Учёные пришли к выводу, что закон имеет серьёзные недостатки, которые могут поставить под угрозу его эффективность. Они опасаются, что брешами в безопасности могут воспользоваться активисты, выступающие против цензуры в интернете. Публикация имён граждан и «забытых» материалов может привлечь к ним внимание общественности и навредить репутации. Ресурс «Скрыто от Google» (Hidden from Google) уже сейчас собирает URL страниц, недоступных из поисковой выдачи. Учёные не рекомендуют уведомлять администраторов сайтов об удалении их из поисковой выдачи, а также считают, что поисковики должны скрывать URL всегда, независимо от поискового запроса.