Новый подход к оценке точности языковых моделей: как избежать ошибок в анализе текстов

Кайли Энглин предложила методы более точной оценки производительности классификаторов для текстов: протестировала разные способы расчёта доверительных интервалов и выявила лучшие подходы.

Исследователь Кайли Энглин разработала рекомендации по более точной оценке производительности классификаторов, работающих с текстами и большими языковыми моделями. Проблема в том, что привычные способы расчёта показателей (например, BLEU, F1, accuracy) часто не учитывают неопределённость результатов — особенно когда данных мало или производительность модели очень высока. Автор протестировала разные методы расчёта доверительных интервалов — в том числе алгоритмы Агрести-Кулла, Уилсона, Клоппера-Пирсона и новый регуляризованный bootstrap с псевдосчётом. Выяснилось, что стандартные подходы (например, интервал Вальда или базовый процентильный bootstrap) нередко дают неточные результаты. Новая методика поможет специалистам точнее оценивать работу моделей и учитывать размер выборки на этапе проектирования решений.