DeepDigest
Towards Data Science · · ~3 мин

Циклы против подсказок: проверка ответов в LLM

Автор статьи сравнивает два подхода к проверке ответов в LLM: самокритику модели и верификатор, привязанный к источнику. Эксперимент показал, что самокритика не снижает частоту галлюцинаций, тогда как верификатор сокращает количество ошибок примерно вдвое. Ключевой вывод: циклы агентов должны опираться на внешнюю, детерминированную проверку, а не на собственное суждение модели.

LLM
Циклы против подсказок: проверка ответов в LLM

В июне 2026 года представитель Anthropic заявил: «Мы больше не пишем подсказки. Мы создаём циклы». Речь идёт о системах, которые самостоятельно пробуют, проверяют и улучшают свою работу в несколько этапов. Однако у такого подхода есть серьёзный недостаток: проверить цикл гораздо сложнее, чем один вызов модели — с каждой итерацией растёт число потенциальных ошибок.

Часто в качестве способа проверки используют саму модель: после составления проекта её спрашивают, верен ли ответ. Но это слабое звено в цепочке. LLM вознаграждает ответы, которые кажутся правильными, — даже если они ошибочны и уверенно сформулированы. Самокритика порой отговаривает модель от верного ответа, поскольку оптимизирована под иные критерии.

Альтернатива — верификатор, который не запрашивает мнение модели. Он должен обладать двумя свойствами: привязкой к источнику (проверять, основан ли ответ на реальном материале) и детерминированностью (давать один и тот же вердикт при одинаковых входных данных).

Автор эксперимента использовал геометрический верификатор: он помещает вопрос, возможный ответ и источник в векторную гиперсферу и считывает углы между ними. Обоснованный ответ находится близко к источнику, а галлюцинированный — ближе к вопросу и дальше от источника. Семантический индекс заземления (SGI) — это соотношение двух таких углов; сопутствующий показатель (DGI) — распределённый показатель заземления, откалиброванный на основе вытянутых заземлённых пар.

В ходе эксперимента сравнивали несколько подходов:
- «Ссылка на открытую книгу» — генератору передают исходный код, проверки нет;
- «Одиночный (закрытая книга)» — один ответ без проверки;
- «Самокритика» — модель оценивает свой ответ и пересматривает его до трёх итераций;
- «Исходный код-привязанный» — геометрический верификатор оценивает ответ и при наличии флажка вводит исходный код, запрашивая обоснованную перепечатку (до трёх итераций).

Генератор — Claude Opus 4.8, рефери — GPT-5.5, контрольный тест — HaluEval QA, кодировщик — all-MiniLM-L6-v2. Параметры настройки: температура = 0, начальное значение = 0, пороговые значения цикла откалиброваны на основе закрытых учебных набросков модели, n = 120 элементов в петлях.

Результаты показали, что самокритика не помогла снизить частоту галлюцинаций: она составила 43,3 % (доверительный интервал [34,8 %, 52,3 %]). Проверка с привязкой к источнику снизила частоту ошибок примерно вдвое — до 19,2 % (доверительный интервал [13,1 %, 27,1 %]).

Ключевой вывод: цикл должен опираться на внешнюю, детерминированную проверку, а не на собственное суждение модели. Верификатор, привязанный к источнику, даёт более надёжную основу для цикла, чем самокритика. Верификатор определяет, соответствует ли ответ источнику, а не является ли ответ истинным в абсолютном смысле.

Используемый верификатор имеет открытый исходный код: github.com/groundlens-dev/groundlens. Автор готов к дискуссии — результаты детерминированы, их можно проверить самостоятельно. Связаться с автором можно по адресу [email protected].

Среди источников, на которые опирается автор: работы Хуана, Дж., Чена, Х., Мишры, С. и других (2024); Камои, Р., Чжана, Ю., Чжана, Н. и других (2024); Марина, Дж. (2025, 2026); Чена, К. Ю., Су, Ф. Ю. и Чианга, Дж. Х. (2026).

// оригинал
Towards Data Science ↗ Читать оригинал
5 просмотров
// поделиться Telegram VK