DeepDigest
arXiv cs.AI · · ~1 мин

Новый подход к оценке точности языковых моделей: как избежать ошибок в анализе текстов

Кайли Энглин предложила методы более точной оценки производительности классификаторов для текстов: протестировала разные способы расчёта доверительных интервалов и выявила лучшие подходы.

cs.AI
arXiv
Cornell University Library

Исследователь Кайли Энглин разработала рекомендации по более точной оценке производительности классификаторов, работающих с текстами и большими языковыми моделями. Проблема в том, что привычные способы расчёта показателей (например, BLEU, F1, accuracy) часто не учитывают неопределённость результатов — особенно когда данных мало или производительность модели очень высока. Автор протестировала разные методы расчёта доверительных интервалов — в том числе алгоритмы Агрести-Кулла, Уилсона, Клоппера-Пирсона и новый регуляризованный bootstrap с псевдосчётом. Выяснилось, что стандартные подходы (например, интервал Вальда или базовый процентильный bootstrap) нередко дают неточные результаты. Новая методика поможет специалистам точнее оценивать работу моделей и учитывать размер выборки на этапе проектирования решений.

// оригинал
arXiv cs.AI ↗ Читать оригинал
1225 просмотров
// поделиться Telegram VK