Джатин Бхусал и Сальма Таманг разработали мультимодальный фреймворк NEST-V1 — систему, которая превращает произнесённые непальские слова в эмоционально окрашенные жесты аватаров. В ходе тестирования система работала с четырьмя словами («спасибо», «привет», «дом», «я») и тремя эмоциональными состояниями (счастье, нейтральность, грусть). В системе используется общий акустический кодер — он одновременно распознаёт речь и определяет эмоции. Точность распознавания речи достигла 81,1%, эмоций — 79,21% на наборе из 600 аудиосэмплов. Система компактна (22,1 М) и эффективнее других решений на 37% по использованию параметров — её можно развернуть на периферии. Разработка открывает путь к созданию систем общения на языке жестов с учётом эмоций для людей с нарушениями слуха.
arXiv cs.CL
·
·
~1 мин
Эмоциональные аватары на языке жестов: новый способ общения на непальском
Создан мультимодальный фреймворк NEST-V1: он превращает непальские слова в жесты аватаров с учётом эмоций. Точность распознавания речи — 81,1%, эмоций — 79,21%.
1 просмотров
// похожие статьи