Коллектив разработчиков из SberDevices представил датасет изображений с жестами HaGRID (Hand Gesture Recognition Image Dataset). Датасет состоит из 552992 изображений, разделённых на 18 классов, в каждом классе примерно по 30 тысяч фото. На снимках представлены реальные люди, показывающие разные жесты на камеру.
По словам разработчиков, с помощью их проекта можно создать систему распознавания жестов, которая будет отлично работать в совершенно разных ситуациях. «Например, жестовое управление можно использовать в видеоконференциях, для управления устройствами умного дома или мультимедийными возможностями автомобиля, — сообщают авторы датасета. — Ещё одна важная возможность — создание виртуальных помощников для пользователей с дефектами речи или использующих язык жестов».
В датасете 18 жестов, и каждый может активировать ту или иную функцию при управлении системой распознавания жестов. Так, жестом ROCK (известен в народе как «коза») можно, например, запускать приложение для воспроизведения музыки, жест MUTE — применять для выключения звука, а жест STOP использовать для постановки аудио/видео на паузу. Кроме того, жесты можно использовать и в комбинациях — так, жестами OK и STOP можно активировать тот или иной выбор во всплывающем меню (например, «Вы действительно хотите оформить подписку?»).
Датасет и предобученные модели бесплатны и доступны для скачивания.