DeepDigest
arXiv cs.LG · · ~1 мин

Новый метод поможет сделать языковые модели безопаснее: разреженные автоэнкодеры выявляют слабые места

Разработан метод оценки надёжности LLM с помощью разреженных автоэнкодеров; предложена стратегия тонкой настройки для повышения безопасности языковых моделей.

cs.LG
arXiv
Cornell University Library

Исследователи предложили новый способ оценки надёжности языковых моделей (LLM). С помощью разреженных автоэнкодеров они смогли определить, при каких условиях модели начинают выдавать ошибочные результаты — например, при наличии незначительных опечаток или специальных подсказок. Авторы разработали стратегию тонкой настройки моделей, которая позволит повысить их эффективность и безопасность. Это особенно важно для применения ИИ в науке, бизнесе и госучреждениях — там ошибки моделей могут иметь серьёзные последствия.

// оригинал
arXiv cs.LG ↗ Читать оригинал
1065 просмотров
// поделиться Telegram VK