Исследователи предложили новый способ оценки надёжности языковых моделей (LLM). С помощью разреженных автоэнкодеров они смогли определить, при каких условиях модели начинают выдавать ошибочные результаты — например, при наличии незначительных опечаток или специальных подсказок. Авторы разработали стратегию тонкой настройки моделей, которая позволит повысить их эффективность и безопасность. Это особенно важно для применения ИИ в науке, бизнесе и госучреждениях — там ошибки моделей могут иметь серьёзные последствия.
arXiv cs.LG
·
·
~1 мин
Новый метод поможет сделать языковые модели безопаснее: разреженные автоэнкодеры выявляют слабые места
Разработан метод оценки надёжности LLM с помощью разреженных автоэнкодеров; предложена стратегия тонкой настройки для повышения безопасности языковых моделей.
// оригинал
arXiv cs.LG
↗ Читать оригинал
1065 просмотров
// похожие статьи