Автор провёл тестирование Claude Sonnet 5, чтобы понять, стал ли новый вариант лучше по сравнению с Sonnet 4.6. Для оценки использовались одинаковые подсказки и критерии, работа велась на японском языке. В простых заданиях (кодирование, логические головоломки, поиск информации в больших текстах, составление кратких технических текстов) процент правильных ответов у обеих моделей оказался одинаковым — 100%.
Однако между моделями заметны различия в стоимости и количестве шагов для выполнения задач. Например, при кодировании средняя стоимость для Sonnet 4.6 составила 0,117 доллара за 5 шагов, а для Sonnet 5 — 0,179 доллара за 6,5 шагов. В задании по поиску информации (Иголка в стоге сена) Sonnet 5 работал медленнее и дороже: медиана времени выполнения — 40,9 секунды против 25,2 секунды у Sonnet 4.6, стоимость — 0,171 доллара против 0,128 доллара.
Среди технических изменений в Sonnet 5:
- контекстное окно с токенами размером 1 млн теперь используется по умолчанию;
- внедрён новый токенизатор — один и тот же текст потребляет примерно на 30% больше токенов;
- адаптивное планирование бюджета включено по умолчанию;
- добавлена система кибербезопасности в режиме реального времени.
Также автор отметил, что Sonnet 5 чаще прибегает к использованию дополнительных инструментов даже в простых задачах. Например, при составлении кратких технических текстов коэффициент многооборотности (когда модель делает несколько попыток перед выдачей ответа) для Sonnet 5 оказался значительно выше, чем для Sonnet 4.6. В одном из заданий он составил 95% (19 из 20) против 5% (1 из 20) у предыдущей версии.
В итоге автор пришёл к выводу, что, несмотря на одинаковое качество ответов, Sonnet 5 требует больше ресурсов и сложнее в использовании. Он планирует вернуться к использованию Sonnet 4.6.