Библиотека Конгресса США выпустила инструмент на основе искусственного интеллекта, позволяющий искать исторические фотографии на 16 миллионах газетных страниц. Инструмент свободно доступен через web-интерфейс.
Поисковая система «Газетного навигатор» (Newspaper Navigator) открывает окно в прошлое, предоставляя возможность посмотреть, как в прессе изображались знаковые события и персонажи минувших лет. Джим Кейси (Jim Casey), доцент кафедры афроамериканских исследований Университета штата Пенсильвания (Penn State University) протестировал этот инструмент и сказал, что с помощью него он собрал визуальные материалы для своих исторических исследований:
«Я занимаюсь исследованием редакторского дела на ранних периодах истории США, и для меня «Газетный навигатор» — бесценный инструмент, который помогает в систематизации сведений о визуальной культуре прессы. С его помощью можно увидеть, как редакторы работали «за кулисами», создавая нужную им картинку и формируя определённое читательское впечатление от той или иной новости».
Инструмент появился благодаря Бену Ли (Ben Lee), исследователю из Вашингтонского университета (Washington University).
Сначала для обнаружения объектов Ли использовал ИИ-модель, обученную на аннотациях страниц из газет времён Первой мировой войны, опубликованных в период между 1900 и 1963 годами и доступных в библиотечной коллекции. Таким образом ИИ был натренирован обнаруживать по словесному описанию фотографии, иллюстрации, карты, карикатуры, комиксы, заголовки и рекламу на заданную исследователем тему. В этом инструменте также использовано распознавание текста для вычленения заголовков и подписей из найденных заметок.
Чтобы воспользоваться системой, нужно просто ввести ключевое слово в газетном навигаторе — и ИИ выдаст все совпадения из набора данных, включающего 1,56 миллиона газетных фотографий. Можно также указать диапазон дат и штат США, в котором выходила газета. Затем можно кликнуть по любому изображению, чтобы загрузить его, прочитать статью, которую оно сопровождает, просмотреть полный номер или узнать больше о газете.
Инструмент будет особенно полезен для архивных работников, но он также может помочь всем нам узнать больше о прошлом.
От редактора
К сожалению, лучшего оставляет желать не только качество распознавания текста, но и сам поиск. Вот, например, ниже один из результатов в выдаче по запросу «Pope» (папа римский). Это некролог цирковой гориллы Джона Дэниела, умершего из-за разрыва с женщиной, воспитывавшей его в Лондоне. Дело в том, что левее на странице — небольшая заметка о кардинале Догерти, в которой и упоминается папа. Поисковый инструмент отрезал от неё по вертикали часть, смешал её с некрологом гориллы, распознал вперемешку и выдал, соответственно, фото гориллы как имеющее отношение к запросу «Pope». Хотя, по-хорошему, надо было резать левее и выдавать заметку о кардинале. Страницу целиком можно посмотреть по ссылке: https://chroniclingamerica.loc.gov/lccn/sn83030214/1921-04-24/ed-1/seq-69/.
В целом однако, несмотря на недостатки, инструмент чрезвычайно занимательный.
Денис Яцутко, редактор.