Claude Sonnet 5: высокие затраты и спорные результаты

Claude Sonnet 5 пробыл в Сети всего один день, но уже вызвал шквал негативных отзывов. Модель не смогла выдержать сравнения с Qianwen и Minimax, а её соотношение цены и качества вызвало серьёзные вопросы. Компания Anthropic представляла Sonnet 5 как модель с наибольшим числом возможностей агента на сегодняшний день, близкую по ряду задач к флагманскому Opus 4.8, при этом цена на Opus всего на 40 % ниже. Среди заявленных преимуществ — более мощные агенты, дешёвые API, увеличенный контекст и улучшенная настройка безопасности. Однако ожидания не оправдались. Менее чем через 24 часа после релиза в китайских технических кругах стал распространяться скриншот с результатами из проекта LLM Benchmark Dashboard. Этот инструмент представляет собой персональный банк частных вопросов и оценивает производительность модели в решении сложных логических задач — в логике, математике, программировании и др. Согласно этим данным, Sonnet 5 не оправдал надежд: например, MiniMax-M3 занял второе место с результатом 61,95 балла, а Qwen сравнялся с Sonnet 5 по лимитному показателю. При этом стоимость тестирования Sonnet 5 оказалась значительно выше: на выполнение того же набора тестов модель потратила 71,96 юаня, тогда как Qwen и MiniMax — 11,71 и 11,64 юаня соответственно. Скорость выдачи токенов у Sonnet 5 высока (в среднем 404 секунды), но при решении сложных логических задач это порой означает недостаток глубины мышления. В режиме максимального рассуждения количество раундов вызовов в Sonnet 5 утроилось по сравнению с предыдущим поколением, а выходной токен увеличился на 40 %. Некоторые пользователи подсчитали, что выполнение сложных задач с Sonnet 5 обойдётся в 22,29 доллара США, тогда как с Opus 4.8 — в 11,80 доллара США. Кроме того, Anthropic незаметно перешёл на новый токенизатор: при использовании одного и того же текста количество токенов выросло на 35 %. Реакция сообщества разделилась. Часть разработчиков восхищается возможностями модели в сложной серверной разработке и многофайловом рефакторинге. Например, в тесте SWE-bench Pro Sonnet 5 набрал 63,2 %, а в CursorBench его результат вырос с 49 % (у Sonnet 4.6) до 57 %. В то же время критики указывают на чрезмерную дороговизну и излишнюю осторожность модели. Так, из‑за «этического цензурирования» модель иногда не помогает в решении технических задач, а лишь усиливает «проповедь». Например, Sonnet 5 набрал ноль баллов в тесте «Разработка эксплойтов для Firefox». Некоторые пользователи сравнивают модель с китайскими аналогами (GLM-5.2, MiniMax-M3, DeepSeek V4 Pro) и отмечают значительный разрыв в цене: по словам основателя LisanBench, Sonnet 5 в 57 раз дороже DeepSeek. Проблема затрагивает и бизнес: например, Uber, запустивший пробную версию Claude Code для 5000 инженеров, столкнулся с ростом ежемесячных расходов до 500–2000 долларов США на пользователя, из‑за чего пришлось пересматривать финансовую модель. Microsoft также отказалась от Claude Code в пользу собственного Copilot на GitHub, чтобы контролировать высокие затраты на токены.