26-слойная свёрточная нейронная сеть для лучшего распознавания человеческой деятельности

Группа исследователей разработала новый дизайн свёрточных нейронных сетей, с помощью которого можно точнее и быстрее распознавать человеческие действия на видео.

Свёрточные нейронные сети (СНС), широко используемые в машинном обучении, достигли хороших результатов в решении целого ряда разнообразных задач, в том числе связанных с распознаванием лиц конкретных людей или объектов на изображениях. При помощи глубокого обучения пытаются решить и задачу распознавания человеческих действий (Human Activity Recognition, HAR) на изображениях и видеозаписях. Исследователи из Пакистана, Южной Кореи, Великобритании и Саудовской Аравии недавно разработали дизайн свёрточных сетей, позволяющий быстро и точно распознавать человеческую деятельность на видеоматериалах. Он описан в статье, опубликованной в журнале Multimedia Tools and Applications. Сеть умеет различать несколько видов человеческой деятельности, включая бокс, хлопанье, размахивание руками, бег трусцой, просто бег и ходьбу.

Распознавание действий человека на изображениях или видео с помощью СНС обычно основывается на выделении ряда характерных черт действий человека. Однако некоторые виды движений, такие как бег трусцой и ходьба, очень похожи, как и их характерные черты. Это затрудняет работу нейронной сети. Потому что при таких условиях признаки, на которых СНС основывают свой анализ, иногда бывают неактуальными или избыточными, и это приводит к ошибкам классификации.

Для преодоления этой проблемы исследователи добавили к непосредственно выделению характерных черт собственную регуляризацию, чтобы нейросеть сложнее было запутать. В качестве регуляризации использовалось распределение Пуассона с унивариантными мерами (Poisson distribution with univariate measures, PDaUM). В результате применения такой регуляризации нейросеть выбирает очень точные признаки конкретного человеческого действия, и это приводит к правильной классификации в большем проценте случаев.

Исследователи обучили и оценили две различных СНС — нейросеть с экстремальным обучением (extreme learning machine, ELM), а также с применением классификатора Softmax (одноимённый с соответствующей функцией) на четырёх датасетах с видеозаписями людей, выполняющих определённые действия: HMDB51 (от human motion database, база данных человеческий движений), UFC Sports (Ultimate Fighting Championship), KTH и датасет человеческих действий Вайцмана (Weizmann Human Action Dataset). В обоих случаях также использовалась предложенная авторами регуляризация.

В итоге, сеть ELM показала значительно лучшие результаты, чем Softmax: она распознавала человеческие действия на видео с точностью 81,4 % на наборе данных HMDB51, 99,2% на наборе данных UCF Sports, 98,3% на наборе данных KTH и 98,7% на наборе данных Weizmann.

Примечательно, что классификатор ELM c регуляризацией PDaUM превзошёл по точности и скорости все методы распознавания человеческих действий на основе глубокого обучения, с которыми исследователи его сравнивали.

В будущем классификатор ELM и регуляризация PDaUM могут позволить разработать более эффективные инструменты для автоматического распознавания человеческих действий как в записи, так и в реальном времени. Как и многие другие алгоритмы машинного обучения, этот классификатор можно в будущем приспособить к применению в области слежки, например, считывать, что делает заключённый в камере или случайный посетитель в подъезде вашего дома, и быстро об этом информировать заинтересованных лиц. Хотя к такому применению могут быть этические вопросы. Также можно будет анализировать большое количество записей — например с камер наблюдения в магазинах.

XX2 век :