Исследователи Фахд Седдик и Фатима Фард разработали систему для оценки того, как большие языковые модели (LLM) представляют «скрытые мысли» — то есть обрабатывают и хранят информацию. Они сформулировали четыре ключевые аксиомы (причинно-следственная связь, минимальность, отделимость и стабильность) и создали показатели для их проверки. Авторы протестировали открытые LLM на 23 логических задачах — от пространственного мышления до контроля фактов. Выяснилось, что ни одна модель не соответствует всем четырём аксиомам одновременно. Более того, представления в моделях плохо различают похожие вопросы в рамках одной задачи и почти не добавляют новой информации к входным данным. Это указывает на структурные ограничения в работе LLM, не зависящие от размера модели или способа её обучения.
arXiv cs.CL
·
·
~1 мин
Новый способ оценить «мышление» ИИ: обнаружены серьёзные ограничения LLM
Разработана система оценки «мышления» LLM: выявлены структурные ограничения моделей на основе четырёх аксиом; протестировано на 23 логических задачах.
// оригинал
arXiv cs.CL
↗ Читать оригинал
11 просмотров
// похожие статьи