Модели языка жестов научились улавливать фонологические нюансы

Учёные оценили, как модели распознавания языка жестов улавливают фонологические особенности: выявлены различия между моделями на основе позы и пикселей, обнаружена частичная корреляция с восприятием человека.

Исследователи проверили, насколько хорошо модели глубокого обучения для распознавания языка жестов (SLR) улавливают фонологические особенности — такие как форма руки, местоположение и движение. Они оценивали зеркальные модели, обученные американскому языку жестов (ASL), с помощью минимальных пар и сравнивали их представления с поведенческими данными людей. Выяснилось, что модели, основанные на позе, лучше замечают различия в форме рук, а модели на основе пикселей — изменения местоположения. При этом представления, которые изучают модели на основе поз, отчасти совпадают с тем, как люди воспринимают язык жестов (коэффициент корреляции около 0,49). Однако текущие подходы к обучению не позволяют выйти за рамки ограничений, продиктованных архитектурой моделей.