Новый публичный инструмент для поиска фото в Библиотеке Конгресса

+7 926 604 54 63 address
 Новый поисковый инструмент облегчит работу историков.
Новый поисковый инструмент облегчит работу историков.

Библиотека Конгресса США выпустила инструмент на основе искусственного интеллекта, позволяющий искать исторические фотографии на 16 миллионах газетных страниц. Инструмент свободно доступен через web-интерфейс.

Поисковая система «Газетного навигатор»‎ (Newspaper Navigator) открывает окно в прошлое, предоставляя возможность посмотреть, как в прессе изображались знаковые события и персонажи минувших лет. Джим Кейси (Jim Casey), доцент кафедры афроамериканских исследований Университета штата Пенсильвания (Penn State University) протестировал этот инструмент и сказал, что с помощью него он собрал визуальные материалы для своих исторических исследований:

«Я занимаюсь исследованием редакторского дела на ранних периодах истории США, и для меня «Газетный навигатор» — бесценный инструмент, который помогает в систематизации сведений о визуальной культуре прессы. С его помощью можно увидеть, как редакторы работали «за кулисами», создавая нужную им картинку и формируя определённое читательское впечатление от той или иной новости».

Инструмент появился благодаря Бену Ли (Ben Lee), исследователю из Вашингтонского университета (Washington University).

Сначала для обнаружения объектов Ли использовал ИИ-модель, обученную на аннотациях страниц из газет времён Первой мировой войны, опубликованных в период между 1900 и 1963 годами и доступных в библиотечной коллекции. Таким образом ИИ был натренирован обнаруживать по словесному описанию фотографии, иллюстрации, карты, карикатуры, комиксы, заголовки и рекламу на заданную исследователем тему. В этом инструменте также использовано распознавание текста для вычленения заголовков и подписей из найденных заметок.

Чтобы воспользоваться системой, нужно просто ввести ключевое слово в газетном навигаторе — и ИИ выдаст все совпадения из набора данных, включающего 1,56 миллиона газетных фотографий. Можно также указать диапазон дат и штат США, в котором выходила газета. Затем можно кликнуть по любому изображению, чтобы загрузить его, прочитать статью, которую оно сопровождает, просмотреть полный номер или узнать больше о газете.

Инструмент будет особенно полезен для архивных работников, но он также может помочь всем нам узнать больше о прошлом.

Результат поиска по запросу «Николай II». Качество распознавания текста, правда, оставляет желать лучшего.

От редактора

К сожалению, лучшего оставляет желать не только качество распознавания текста, но и сам поиск. Вот, например, ниже один из результатов в выдаче по запросу «Pope» (папа римский). Это некролог цирковой гориллы Джона Дэниела, умершего из-за разрыва с женщиной, воспитывавшей его в Лондоне. Дело в том, что левее на странице — небольшая заметка о кардинале Догерти, в которой и упоминается папа. Поисковый инструмент отрезал от неё по вертикали часть, смешал её с некрологом гориллы, распознал вперемешку и выдал, соответственно, фото гориллы как имеющее отношение к запросу «Pope». Хотя, по-хорошему, надо было резать левее и выдавать заметку о кардинале. Страницу целиком можно посмотреть по ссылке: https://chroniclingamerica.loc.gov/lccn/sn83030214/1921-04-24/ed-1/seq-69/.

Покойный Джон Дэниел в выдаче нового поискового инструмента по запросу Pope.
Покойный Джон Дэниел в выдаче нового поискового инструмента по запросу Pope.

В целом однако, несмотря на недостатки, инструмент чрезвычайно занимательный.

Денис Яцутко, редактор.

.
Комментарии