Новый взгляд на оценку ИИ: что скрывается за максимальной точностью?
Авторы предложили оценивать ИИ-агентов не только по точности, но и по другим параметрам (надёжность, эффективность и др.), представив обновлённый тест CORE-Bench и выявив ускорение решения задач при взаимодействии человека и агента.
читать →
2 просмотра