Исследователь Шуайчжи Ченг поставил под сомнение распространённое представление о том, как работают большие языковые модели (LLM) — в частности, как они индивидуализируются. В своих экспериментах с моделями Qwen3-4B-Instruct и Mistral-7B-Instruct-v0.2 он обнаружил ряд неожиданных закономерностей: например, вымышленные персонажи сильнее смещают модель в сторону реальных привязок, чем реальные. Автор предлагает новый способ индивидуализации LLM — он зависит от режима работы модели. Теперь единицей идентификации контента становится не просто модель, а сочетание модели и режима её работы. Это может изменить подход к настройке и использованию LLM в разных сценариях.
arXiv cs.CL
·
·
~1 мин
Новый подход к индивидуализации LLM: ломаем привычные представления
Шуайчжи Ченг выявил новые закономерности в работе LLM и предложил индивидуализацию моделей с учётом режима их работы — на примере Qwen3-4B-Instruct и Mistral-7B-Instruct-v0.2.
// оригинал
arXiv cs.CL
↗ Читать оригинал
3 просмотров
// похожие статьи