Разреженные автоэнкодеры помогут сделать языковые модели надёжнее

Исследователи предложили новый способ оценить, насколько хорошо языковые модели (LLM) справляются с данными, которые отличаются от тех, на которых они обучались. С помощью разреженных автоэнкодеров учёные выявили, как даже мелкие ошибки в запросах (например, опечатки или попытки обойти ограничения) заставляют модели выдавать ошибочные результаты. Новый метод позволяет точнее настроить модели и повысить их надёжность в реальных условиях — например, при работе с неожиданными или противоречивыми данными. Это важный шаг к созданию более безопасных ИИ‑систем для науки, бизнеса и госуправления.