DeepDigest
TechNews 科技新報 / AI · · ~3 мин

Anthropic возвращает Claude Fable 5 и усиливает меры безопасности

Anthropic возвращает модель Claude Fable 5 в сеть — доступ для пользователей по всему миру планируют восстановить с 1 июля. Компания усилила меры безопасности после обнаружения уязвимостей модели и совместно с правительством разработала усовершенствованные механизмы защиты. Также Anthropic работает над созданием отраслевой системы оценки джейлбрейка с использованием ИИ.

Anthropic возвращает Claude Fable 5 и усиливает меры безопасности

Компания Anthropic после переговоров с администрацией Трампа смогла вернуть модель Claude Fable 5 в сеть. Доступ к модели для пользователей по всему миру планируется восстановить с 1 июля — например, уже сейчас тайваньские пользователи могут использовать её в Claude. Об этом Anthropic сообщила в своём аккаунте X: «Мы получили уведомление о том, что Министерство торговли сняло экспортный контроль с Claude Fable 5 и Claude Mythos 5, и мы возобновим доступ завтра».

С 1 июля Claude Fable 5 будет доступна на платформе Claude, а приложения Claude Code и Claude Cowork откроются для пользователей по всему миру. Для тарифных планов Claude Pro, Claude Max, Claude Team и некоторых планов подписки Claude Enterprise недельный лимит использования Claude Fable 5 составит до 50 % до 7 июля — затем его заменят на баллы. Также Anthropic планирует как можно скорее возобновить доступ к AWS, Google Cloud и Microsoft Foundry, хотя точный график пока не определён.

9 июня компания выпустила Claude Fable 5 и Claude Mythos 5 — они используют один и тот же набор базовых моделей. Claude Fable 5 оснащена надёжным механизмом защиты и подходит для общего использования, тогда как Claude Mythos 5 доступна лишь нескольким надёжным партнёрам по проекту Glasswing для защиты сетевой безопасности.

12 июня правительство ввело экспортный контроль, запретив иностранцам (в том числе сотрудникам корпоративных клиентов и Anthropic, не являющимся гражданами США) использовать Claude Fable 5. Такое решение приняли после того, как исследователи Amazon в своём отчёте описали способ обойти механизм защиты Claude Fable 5 — с помощью подсказок модель могла выявлять многочисленные уязвимости ПО. В одном из случаев она даже сгенерировала код, демонстрирующий, как использовать эти уязвимости.

Тесты Anthropic показали, что и другие модели (например, Claude Opus 4.8, GPT-5.5, Kimi K2.7) способны выявлять те же уязвимости. Компания вместе с правительством разработала усовершенствованные меры безопасности — они блокируют поведение, описанное в отчёте, и предотвращают более 99 % протестированных случаев. Если запрос к Claude Fable 5 будет заблокирован, пользователь получит уведомление, а вместо неё будет обработан запрос к Claude Opus 4.8. При этом есть и побочный эффект: при выполнении рутинных задач по кодированию и отладке система может помечать безобидные запросы.

Anthropic намерена и дальше тесно сотрудничать с правительством: предоставит возможность самостоятельно оценить возможности модели и протестировать механизм защиты до её широкого распространения. Также компания создала механизм быстрого обмена информацией о методах взлома — как только такие методы будут выявлены, команда проведёт расследование, классифицирует их и уведомит госорганы.

Кроме того, Anthropic вместе с правительством, Amazon, Google, Microsoft и партнёрами проекта Glasswing работает над созданием общепринятой в отрасли системы оценки джейлбрейка с использованием ИИ. Компания предлагает четыре категории оценки: степень способности злоумышленника улучшить ситуацию, широту его возможностей, степень лёгкости создания оружия и степень достигнутой сложности.

В Anthropic сформирована новая команда для круглосуточного мониторинга канала уведомлений о джейлбрейке с помощью ИИ. Позже будет запущен проект HackerOne — исследователи смогут представить потенциальные методы джейлбрейка, которые они обнаружили с помощью Claude Fable 5.

// оригинал
TechNews 科技新報 / AI ↗ Читать оригинал
37 просмотров
// поделиться Telegram VK