Новый тест Indi-RomCoM выявил слабые места LLM в работе со смешанным индийско‑английским языком

Создан тест Indi-RomCoM для оценки LLM на смешанных индийско‑английских инструкциях; модели плохо с ними справляются, особенно при сильном смешивании языков.

Авторы исследования создали тест Indi-RomCoM, чтобы оценить, насколько хорошо большие языковые модели (LLM) справляются с инструкциями на смешанном индийско‑английском языке, записанном латиницей. В тесте — семь заданий, четыре индийских языка и три уровня сложности смешивания языков. Выяснилось, что LLM плохо работают с такими инструкциями, причём чем сильнее смешиваются языки, тем хуже результат. При этом логические задачи модели выполняют лучше, чем задачи по обнаружению, например, токсичности. Тест поможет разработчикам создавать более инклюзивные многоязычные системы.