DeepDigest
arXiv cs.CL · · ~1 мин

Новый подход к индивидуализации LLM: ломаем привычные представления

Шуайчжи Ченг выявил новые закономерности в работе LLM и предложил индивидуализацию моделей с учётом режима их работы — на примере Qwen3-4B-Instruct и Mistral-7B-Instruct-v0.2.

cs.CL
arXiv
Cornell University Library

Исследователь Шуайчжи Ченг поставил под сомнение распространённое представление о том, как работают большие языковые модели (LLM) — в частности, как они индивидуализируются. В своих экспериментах с моделями Qwen3-4B-Instruct и Mistral-7B-Instruct-v0.2 он обнаружил ряд неожиданных закономерностей: например, вымышленные персонажи сильнее смещают модель в сторону реальных привязок, чем реальные. Автор предлагает новый способ индивидуализации LLM — он зависит от режима работы модели. Теперь единицей идентификации контента становится не просто модель, а сочетание модели и режима её работы. Это может изменить подход к настройке и использованию LLM в разных сценариях.

// оригинал
arXiv cs.CL ↗ Читать оригинал
3 просмотров
// поделиться Telegram VK