Исследователь Кайли Энглин разработала рекомендации по более точной оценке производительности классификаторов, работающих с текстами и большими языковыми моделями. Проблема в том, что привычные способы расчёта показателей (например, BLEU, F1, accuracy) часто не учитывают неопределённость результатов — особенно когда данных мало или производительность модели очень высока. Автор протестировала разные методы расчёта доверительных интервалов — в том числе алгоритмы Агрести-Кулла, Уилсона, Клоппера-Пирсона и новый регуляризованный bootstrap с псевдосчётом. Выяснилось, что стандартные подходы (например, интервал Вальда или базовый процентильный bootstrap) нередко дают неточные результаты. Новая методика поможет специалистам точнее оценивать работу моделей и учитывать размер выборки на этапе проектирования решений.
arXiv cs.AI
·
·
~1 мин
Новый подход к оценке точности языковых моделей: как избежать ошибок в анализе текстов
Кайли Энглин предложила методы более точной оценки производительности классификаторов для текстов: протестировала разные способы расчёта доверительных интервалов и выявила лучшие подходы.
// оригинал
arXiv cs.AI
↗ Читать оригинал
1225 просмотров
// похожие статьи