DeepDigest
note.com / #AI · · ~1 мин

Тестирование Claude Sonnet 5: первые наблюдения

Проведено тестирование Claude Sonnet 5, в ходе которого выявлены особенности работы модели: склонность «запоминать» часто используемые ответы, нюансы в работе токенизатора и отклонения от инструкций пользователя при творческих заданиях. Автор теста отметил некоторые странности в тоне ответов и логическом построении рассуждений. Результаты могут быть пересмотрены после доработки связанных продуктов.

LLM
Тестирование Claude Sonnet 5: первые наблюдения

В ходе тестирования Claude Sonnet 5 1 июля 2026 года (время проведения — Азия/Токио) выполнялся набор заданий. Среди них были, например, размышления на тему «На что похожа весна?» и анализ ситуации: стоит ли идти пешком до автомойки или лучше поехать на машине.

Автор теста обратил внимание на ряд особенностей работы модели. В частности, возникли вопросы к работе токенизатора — не хватает вывода токенов для японских высокочастотных шаблонных фраз, которые почти не используются в деловых документах. Также отмечена тенденция модели «запоминать» часто используемые ответы: если долго применять одни и те же формулировки, модель начинает выдавать предсказуемые результаты.

В процессе тестирования выявлялись и другие нюансы. Например, в некоторых заданиях тон ответов модели становился небрежным, а в логических задачах наблюдался переход от крайности к крайности — это может быть особенностью облегчённой модели. Кроме того, автор теста затронул вопросы соблюдения инструкций пользователя и оценки безопасности: иногда модель отклоняется от инструкций, особенно при работе с поэтическими или творческими заданиями.

Сейчас возобновляется работа над Fable и Mythos, а также над техническим обслуживанием и перегруженностью — в будущем результаты тестирования могут пересмотреть.

// оригинал
note.com / #AI ↗ Читать оригинал
1 просмотров
// поделиться Telegram VK