DeepDigest
Habr / Машинное обучение · · ~3 мин

Claude Opus 4.8: деградация модели перед релизом Sonnet 5

Автор статьи жалуется на ухудшение работы модели Claude Opus 4.8 незадолго до выхода новых моделей Anthropic (Sonnet 5 и Fable 5). Он приводит жалобы пользователей, данные независимых замеров (Marginlab, AMD) и признания самой Anthropic об ухудшении качества моделей. Автор связывает это с экономическими мотивами компании перед IPO.

LLM
Claude Opus 4.8: деградация модели перед релизом Sonnet 5

Автор статьи, Илья, блогер и основатель сервиса генерации изображений ArtGeneration.me, столкнулся с ухудшением работы модели Claude Opus 4.8. Он раздавал ей привычные задачи — и внезапно модель стала забывать контекст, ошибаться и выдавать результаты, которые приходилось переделывать. Автор связывает это с выходом новых моделей Anthropic: 30 июня компания выпустила Sonnet 5, а 1 июля вернула Fable 5 после правительственной блокировки.

Илья замечает закономерность: качество моделей нередко снижается незадолго до выхода их новых версий. Он ссылается на жалобы пользователей, зафиксированные на форумах и в репозитории антропосик/claude‑code на GitHub. Например, в Issue #68780 (16 июня) пользователь на максимальном тарифе жалуется на сильную деградацию модели: «Ощущение, что Haiku мощнее той модели, которую вы обманом выдаёте мне за Opus 4.8». В Issue #70053 (22 июня) другой пользователь возмущается: «Opus 4.8 закопали в землю… Выкрути рассуждение на максимум — он думает десять минут над одним ответом. Не выкручивай — он безмозглый».

Есть и количественные данные. Компания Marginlab ежедневно тестирует Claude Code на 50 инженерных задачах и фиксирует результаты. По их данным, в двадцатых числах мая доля решённых задач у Opus 4.7 упала с 65 % до 57 % и держалась ниже нормы пять дней подряд. Показатель восстановился в момент, когда его место занял Opus 4.8.

Также есть анализ от Стеллы Лаурензо, старшего директора ИИ‑подразделения AMD: на основе 6852 рабочих сессий её команды выявлено, что медианная длина «размышлений» модели упала с 2200 символов в январе до 600 в марте (минус 73 %). Модель перестала читать код перед тем, как его править — соотношение чтения к правкам снизилось с 6,6 до 2,0. Лаурензо делает вывод: «Claude больше нельзя доверять сложные инженерные задачи».

Anthropic сама признала случаи ухудшения работы моделей. В постмортеме от 23 апреля компания объяснила, что 4 марта снизила дефолтный уровень «усилия рассуждений» Claude Code с высокого на средний — чтобы сократить задержки и расходы. Настройку откатили 7 апреля, а публично историю разложили только 23 апреля. Кроме того, 10 июня 2026 года Fortune обнаружил в документации Fable 5 механизм, тайно снижавший качество ответов, если запрос был похож на разработку передового ИИ. Через 48 часов после скандала Anthropic механизм отключила и извинилась.

Автор также обращает внимание на экономические мотивы: инференс (обслуживание запросов) — главная статья расходов ИИ‑компании. По данным SemiAnalysis, год назад Anthropic оставляла себе примерно 38 центов с каждого доллара, заработанного на инференсе, а сейчас — 70. Переток пользователей с дорогих моделей на дешёвые — это официальный источник маржи. К тому же 1 июня Anthropic подала документы на IPO, оценка — $965 млрд, размещение планируется осенью. Перед IPO каждый пользователь, пересевший с Opus на Sonnet, улучшает отчётность компании.

В документации по ценам есть упоминание, что новые модели (Opus 4.7 и новее, Sonnet 5, Fable 5) используют новый токенайзер, который «производит примерно на 30 % больше токенов для того же текста». То есть даже при неизменном ценнике за миллион токенов тот же текст стал стоить на треть дороже.

Автор предполагает, что Fable 5 — это фактически Opus 5 под новой вывеской. По его мнению, компания использует схему «90-75-91»: модель выдаёт условные 90 % возможного, затем из‑за «оптимизаций» и классификаторов сползает к 75 %, а после выхода новинки выдаёт 91 % — и на фоне 75 % это выглядит как прорыв, хотя на деле пользователю просто вернули прежний уровень плюс немного сверху.

// поделиться Telegram VK