Специалисты в области computer science из Вашингтонского университета и The Allen Institute for Artificial Intelligence (Сиэттл, США) создали первую полностью автоматическую программу, которая показывает все, что нужно знать о каждом визуальном концепте.
Программа LEVAN (Learning Everything about Anything) обрабатывает миллионы текстов и изображений в сети, для того, чтобы изучить все возможные вариации концепта и предоставить результат пользователю в виде всеобъемлющего, удобного для просмотра списка изображений, помогающего исследовать и понять интересующую тему во всех подробностях.
«Это все для обнаружения связей между текстовой и визуальной информацией, — поясняет Али Фархади, специалист из Вашингтонского университета. — Программа обучается находить связи между фразами текста и пикселями в изображении. Это означает, что она может распознать образы, связанные с конкретными понятиями».
Исследовательская группа представит свой проект на ежегодной конференции по компьютерному зрению и распознаванию образов, которая пройдет в городе Колумбус (Огайо, США).
Программа определяет, какие части изображения являются релевантными поисковому запросу, проведя анализ найденных в сети изображений и выявив характерные паттерны с помощью алгоритма распознавания образов. Это позволяет получить результат, более качественный, чем предлагают существующие инструменты поиска изображений, пользующиеся лишь информацией, прописанной в заголовках.
На данный момент пользователи LEVАN могут просмотреть существующие библиотеки изображений, связанных с примерно 175 концептами. Диапазон концептов широк — от «авиакомпании» до «окна», и включает такие концепты, как «красота», «завтрак», «сияние», «рак», «инновация», «скейтбординг», «робот», «лошадь».
Если концепт, который интересует пользователя, не представлен в списке, существует возможность сделать поисковый запрос и программа автоматически начнет генерировать исчерпывающий перечень подкатегорий изображений, относящихся к понятию. Так, поиск по слову «собака» дает коллекцию как очевидных подкатегорий, среди которых «собака породы чихуахуа», «черный пес», «собака плывет», «борзая»; так и такие подкатегории, как «собачий нос», «собачья миска», «уродливая собачка», «хот-дог» и так далее.
Программа работает, анализируя миллионы англоязычных текстов, доступных на Google Books, с тем, чтобы выявить устойчивые понятия, связанные с определенным словом. Далее включается фильтр, отсеивающий понятия, не связанные со зрительными образами. Таким образом, запрос «лошадь» даст результаты, связанные с такими понятиями, как «прыжок коня», «лошадь ест», «гимнастический конь», но проигнорирует понятие «моя лошадка».
После определения актуальных фраз, программа начинает поиск изображений в интернете, находя закономерности, связывающие различные фотографии. Когда такая закономерность найдена, программа выдает все образы, связанные с конкретной фразой. Например, «конкурная лошадь».
«Основные информационные ресурсы, словари и энциклопедии, движутся в этом направлении, предоставляя пользователю визуальную информацию, способствующую быстрому пониманию. Но они ограничены необходимостью вручную подбирать подходящие изображения. Новая программа способна в автоматическом режиме создать базу изображений, связанных с любым концептом», — говорит Сантош Дивалла из The Allen Institute for Artificial Intelligence.
В работе над проектом задействован также Карлос Гестрин, профессор computer science Вашингтонского университета.
Программа LEVAN была запущена в марте, с тех пор она связала вместе 13 миллионов изображений и 65 тысяч различных фраз. Время обработки каждого нового запроса может достигать 12 часов. Исследователи работают над увеличением скорости обработки и над расширением возможностей программы.
Будущее программы, по мнению ее разработчиков — служить open-source образовательным инструментом, информационным банком для исследователей в области компьютерного зрения.