Новый взгляд на оценку ИИ: что скрывается за максимальной точностью?

Авторы предложили оценивать ИИ-агентов не только по точности, но и по другим параметрам (надёжность, эффективность и др.), представив обновлённый тест CORE-Bench и выявив ускорение решения задач при взаимодействии человека и агента.

Исследователи предложили новый подход к оценке эффективности ИИ-агентов. Они показали, что после достижения максимальной точности в тестах (например, в CORE-Bench Hard) важно изучать и другие параметры: надёжность, эффективность, способность к обобщению и взаимодействие человека с агентом. Авторы представили обновлённую версию теста CORE-Bench v1.1 и набор задач CORE-Bench OOD. В ходе эксперимента они обнаружили, что взаимодействие человека и агента может ускорить решение задач примерно в два раза. Это позволяет получить более полную картину возможностей ИИ, а не ограничиваться лишь показателем точности.