LLM: детальный разбор механизма логического вывода

Автор, имеющий более 25 лет опыта в области измерений и контроля, подробно разобрал механизм логического вывода большой языковой модели (LLM), воссоздав его с нуля без опоры на фреймворки. В серии статей он шаг за шагом объясняет, как работает LLM: от токенизации и встраивания до механизма внимания и выходного слоя. Особое внимание уделено верификации: автор сопоставил свою реализацию с официальной, добившись совпадения логитов в пределах погрешности округления с плавающей запятой (2e-4) и точного совпадения по битам (max|Δ|=0,0) в некоторых случаях. В материале разобраны ключевые компоненты: BPE (Byte Pair Encoding) для токенизации, встраивание токенов в многомерные векторы, механизм внимания (Attention), уровень прямого распространения (FFN) и другие. Также описаны практические результаты — например, сокращение объёма памяти при квантовании: для модели 0.5B с 2,0 ГБ до 1,21 ГБ, для 1.5B — с 5,7 ГБ до 2,44 ГБ. При этом скорость генерации падает примерно до 0,7 токенов в секунду. В примерах общения с моделью показаны базовые возможности: ответы на простые вопросы (например, «Какая столица Японии?») и выполнение простых арифметических операций. Автор подчёркивает важность честного подхода к измерениям и верификации — не скрывать ошибки и не преувеличивать результаты. Серия включает несколько частей: от введения и философии верификации до практических аспектов выбора модели, оценки и ответственного дизайна.