Новый метод поможет сделать языковые модели безопаснее: разреженные автоэнкодеры выявляют слабые места

Разработан метод оценки надёжности LLM с помощью разреженных автоэнкодеров; предложена стратегия тонкой настройки для повышения безопасности языковых моделей.

Исследователи предложили новый способ оценки надёжности языковых моделей (LLM). С помощью разреженных автоэнкодеров они смогли определить, при каких условиях модели начинают выдавать ошибочные результаты — например, при наличии незначительных опечаток или специальных подсказок. Авторы разработали стратегию тонкой настройки моделей, которая позволит повысить их эффективность и безопасность. Это особенно важно для применения ИИ в науке, бизнесе и госучреждениях — там ошибки моделей могут иметь серьёзные последствия.