Новый подход к оценке точности языковых моделей: как избежать ошибок в анализе текстов

Исследователь Кайли Энглин предложила новые методы оценки неопределённости в работе классификаторов на основе больших языковых моделей (LLM). Проблема в том, что привычные способы подсчёта точности (например, с использованием интервалов Вальда или базового процентильного bootstrap) часто дают неточные результаты — особенно когда данных немного или показатели эффективности очень высоки. В статье рассматриваются альтернативные методы — алгоритмы Агрести-Кулла, Уилсона, Клоппера-Пирсона, а также новый регуляризованный bootstrap с псевдосчётом (он особенно полезен для вычисления F1). Автор также объясняет, как правильно учитывать особенности вложенных данных (когда тексты связаны с отдельными пользователями или элементами). Это позволит специалистам точнее оценивать работу моделей и обращать больше внимания на размер выборки на этапе разработки решений.