Deep Digest — AI на русском

Новый способ оценить «мышление» ИИ: обнаружены серьёзные ограничения LLM

Разработана система оценки «мышления» LLM: выявлены структурные ограничения моделей на основе четырёх аксиом; протестировано на 23 логических задачах.

Исследователи Фахд Седдик и Фатима Фард разработали систему для оценки того, как большие языковые модели (LLM) представляют «скрытые мысли» — то есть обрабатывают и хранят информацию. Они сформулировали четыре ключевые аксиомы (причинно-следственная связь, минимальность, отделимость и стабильность) и создали показатели для их проверки. Авторы протестировали открытые LLM на 23 логических задачах — от пространственного мышления до контроля фактов. Выяснилось, что ни одна модель не соответствует всем четырём аксиомам одновременно. Более того, представления в моделях плохо различают похожие вопросы в рамках одной задачи и почти не добавляют новой информации к входным данным. Это указывает на структурные ограничения в работе LLM, не зависящие от размера модели или способа её обучения.