Исследователи разработали новый тест Know2Guess, чтобы точнее оценивать, где большие языковые модели опираются на достоверные знания, а где делают предположения. Тест включает 1200 заданий в пяти областях и учитывает риски «загрязнения» данных. Авторы проверили с его помощью модели FLAN-T5, Qwen2.5-Instruct и Llama-3-Instruct. Оказалось, что даже продвинутые модели не всегда корректно переходят от ответов к воздержанию от них. Новый бенчмарк поможет разработчикам лучше контролировать работу LLM — проверять их на подотчётность, воздержание от ответов и другие важные аспекты.
arXiv cs.CL
·
·
~1 мин
Know2Guess: новый тест для проверки границ знаний больших языковых моделей
Создан тест Know2Guess для оценки границ знаний в LLM: 1200 заданий в 5 областях, проверка моделей FLAN-T5, Qwen2.5-Instruct, Llama-3-Instruct.
3 просмотров
// похожие статьи