Команда Института науки и технологий Кванджу заняла первое место на организованном IEEE соревновании создателей ИИ-технологий аудиораспознавания

С использованием искусственного интеллекта технологии распознавания объектов по акустическим сигналам могут выйти на новый уровень в прослушивании и интерпретации разнородного звукового материала в разных контекстах.

Уже сейчас научно-исследовательская группа из Института науки и технологий Кванджу (Gwangju Institute of Science and Technology, GIST), чтобы создать аудиоинтеллект, способный работать с разнообразными звуками, сумела значительно усилить производительность акустического распознавания. Новаторская работа этих исследователей заняла первое место в категории обнаружения акустических событий внутри помещений на соревновании «DCASE Challenge 2023», организованном Институтом инженеров по электротехнике и электронике (Institute of Electrical and Electronics Engineers, IEEE).

В нашем быту большое количество информации об окружающей среде и происходящих в ней событиях предоставляют нам звуки, ибо люди обладают способностью воспринимать окружающую их звуковую среду (например, звуки на улице, на работе или дома) и распознавать источники этих звуков. Появление искусственного интеллекта (ИИ) позволило развивать методы аудиораспознавания объектов, создавая ИИ-системы, которые могут слушать и интерпретировать различные звуки в разных контекстах. Эти исследования способны существенно улучшить по целому ряду направлений мультимедийный поиск на основе аудиоконтента, использование контекстно-зависимых мобильных устройств, роботов, автомобилей, систем интеллектуального наблюдения и мониторинга. Однако здесь есть проблемы. Прежде всего, необходимо научить ИИ распознавать сложные и простые источники звука в реалистичных звуковых ландшафтах с одновременным присутствием множества разных звуков.

Научно-исследовательская группа из GIST (вместе с исполняющим обязанности президента института Рэ-гилом Паком (Rae-gil Park)), работая над решением данной проблемы, смогла добиться выдающихся успехов, в результате чего их работа на проходившем 1 июня 2023 года Международном соревновании по обнаружению и классификации акустических сцен и событий (International Challenge on Detection and Classification of Acoustic Scenes and Events), организованном Обществом обработки сигналов (Signal Processing Society) Института инженеров по электротехнике и электронике, заняла первое место. В группу входили студенты Лаборатории аудиоинтеллекта GIST Чжи-вон Ким (Ji-won Kim), Сан-вон Сон (Sang-won Son) и Юн-а Сон (Yoon-ah Song), руководитель группы — профессор Хонгок Ким (Hongguk Kim) с факультета электротехники и вычислительной техники GIST. С ними сотрудничали исследователи Ил-хун Сон (Il-hoon Song) и Чон-ын Лим (Jeong-eun Lim) из лаборатории искусственного интеллекта компании «Hanwha Vision», руководитель которых — директор Сын-ин Но (Seung-in Noh). Они заняли первое место в категории одиночных моделей и второе место в категории ансамблевых моделей в сегменте обнаружения акустических событий внутри помещений, что явилось достойной наградой за их уникальный научно-исследовательский прорыв.

«В категории “Обнаружение акустических событий в помещении” производительность ИИ-технологий оценивалась по их способности обнаруживать и различать 10 различных звуков, обычно встречающихся в помещении, включая звуки пылесоса, посуды, лай собак и шум воды», — отметил профессор Ким, рассказывая о достижении своей группы.

Команда GIST — «Hanwha Vision» добилась значительных успехов в повышении эффективности акустического распознавания благодаря интеграции целого ряда ИИ-технологий, позволяющих создавать разносторонне развитые системы аудиоинтеллекта. В этом ряду технология полуобучения, использующая полученные от ИИ ответы, технология слияния, объединяющая результаты выводов моделей предварительного обучения с результатами существующих моделей, методы уточнения данных, оптимизирующие производительность, а также ансамблевые технологии, где производительность ИИ повышается на основе объединения нескольких методов.

«Опыт и знания, полученные в ходе соревнования, пригодятся для обнаружения акустических событий с помощью разработанных «Hanwha Vision» систем видеонаблюдения. Кроме того, будут разрабатываться более эффективные и удобные для пользователя сервисы, такие как технология обнаружения речевых сегментов и акустических событий в контенте социальных сетей», — сказал профессор Ким.

По мнению специалистов, революционная технология корейских исследователей найдёт широкое применение, в частности при наблюдении в помещении и при производстве умных колонок (AI speakers). Нам, конечно, очень пригодится, если эта технология сумеет сделать ИИ способным понимать происходящее вокруг нас по одним лишь звукам — даже тогда, когда нельзя осуществлять визуальное наблюдение.

Автор:
Шеннон Дэвис (Shannon Davis) — журналист, редактор и продюсер новостей «Semiconductor Digest», а также блогер. Имеет степень бакалавра журналистики, полученную в Хантингтонском университете (Хантингтон, штат Индиана). Помимо многолетнего фриланса Шеннон занималась маркетингом и связями с общественностью в сфере производства возобновляемых источников энергии и здравоохранения.
Александр Горлов :