LLM сталкиваются с трудностями при решении инженерных задач с диаграммами

Исследование показало: LLM хорошо решают текстовые инженерные задачи, но ошибаются при работе с диаграммами и многоэтапным анализом из‑за сложностей в рассуждениях.

Исследователи Таннер Каллетон и Хун-Фу Чанг изучили, насколько хорошо большие языковые модели (LLM) справляются с задачами по статике — разделу механики. Они проанализировали работу ChatGPT на 25 текстовых вопросах по статике, а также создали два дополнительных набора данных: в одних добавили диаграммы, в других изменили числовые значения. Выяснилось, что LLM хорошо решают текстовые задачи, но их точность падает, когда нужно работать с диаграммами и выполнять многоэтапный анализ. Проблема не в распознавании изображений, а в том, что модели сложно последовательно применять полученную визуальную информацию на разных этапах решения задачи.