В ходе тестирования Claude Sonnet 5 1 июля 2026 года (время проведения — Азия/Токио) выполнялся набор заданий. Среди них были, например, размышления на тему «На что похожа весна?» и анализ ситуации: стоит ли идти пешком до автомойки или лучше поехать на машине.
Автор теста обратил внимание на ряд особенностей работы модели. В частности, возникли вопросы к работе токенизатора — не хватает вывода токенов для японских высокочастотных шаблонных фраз, которые почти не используются в деловых документах. Также отмечена тенденция модели «запоминать» часто используемые ответы: если долго применять одни и те же формулировки, модель начинает выдавать предсказуемые результаты.
В процессе тестирования выявлялись и другие нюансы. Например, в некоторых заданиях тон ответов модели становился небрежным, а в логических задачах наблюдался переход от крайности к крайности — это может быть особенностью облегчённой модели. Кроме того, автор теста затронул вопросы соблюдения инструкций пользователя и оценки безопасности: иногда модель отклоняется от инструкций, особенно при работе с поэтическими или творческими заданиями.
Сейчас возобновляется работа над Fable и Mythos, а также над техническим обслуживанием и перегруженностью — в будущем результаты тестирования могут пересмотреть.