IMCBench: новый тест для ИИ в медицинских диалогах с использованием изображений

IMCBench — тест для оценки ИИ-моделей в медицинских диалогах с изображениями; тестировались Claude, GPT, Nova, Llama; лучший результат у Claude Opus 4.6 (3,61 балла).

Исследователи представили IMCBench — тест для оценки мультимодальных моделей ИИ в контексте медицинских диалогов, где используются реальные клинические изображения и синтетические профили пациентов. В ходе тестирования оценивались восемь моделей (Claude, GPT, Nova и Llama) по трём критериям: безопасность, точность и корректное использование неопределённости в диагностике. Лучший результат показал Claude Opus 4.6 (3,61 балла). Результаты подчёркивают, что даже точное клиническое описание не всегда гарантирует безопасное ведение пациента — это указывает на необходимость комплексных систем оценки ИИ в медицине.