Обновить 16K+ Охват за 30 дней Magnus Tech 118,67 Рейтинг 190 Подписчики Подписаться Lithium_vn вчера в 08:24 Бан Claude Fable 5, первый чип от OpenAI, Siri подружилась с Gemini: главные события июня в ИИ Время на прочтение 32 мин Охват и читатели 7.3K Блог компании Magnus Tech Искусственный интеллект Машинное обучение Программирование Дайджест В этом месяце власти США заставили ведущие ИИ‑лаборатории сильно понервничать. Fable 5 пришлось экстренно отключить спустя три дня после релиза, а GPT‑5.6 и вовсе не попала в руки простых пользователей. И всё это на фоне выхода OpenAI и Anthropic на IPO. Но, к счастью, у техногигантов есть и другие козыри в рукаве. OpenAI внезапно занялись производством чипов, Midjourney — медицинским оборудованием, а Apple и Google — переделом рынка персональных ассистентов. Ну и куда без традиционной подборки свежих исследований и инструментов? Заваривайте кофе: впереди хроника ещё одного безумного месяца в ИИ. Навигация Свежие релизы Anthropic Claude Opus 4.8: ручное управление размышлениями и честность в ответах Claude Fable 5: модель, прожившая ровно три дня Dynamic Workflows: от одиночного агента к автономному IT‑отделу Claude Tag: автономный коллега‑агент с пропиской в Slack Claude Sonnet 5: агентность уровня Opus за полцены OpenAI Линейка GPT‑5.6: три уровня интеллекта и усиленные фильтры Codex Security и GPT‑5.5‑Cyber: находим и патчим GPT‑5.5 Instant получила медицинский диплом Dreaming: ChatGPT учится актуализировать контекст Ручной сброс лимитов в Codex Google Gemma 4 12B: мультимодальность без энкодеров DiffusionGemma: быстрая генерация с нюансами Open Knowledge Format: markdown‑документация как язык общения агентов Apple Intelligence 2.0: Apple не сможет, Google поможет MiniMax M3: открытая модель с прикладным фокусом GLM‑5.2 от Z.ai: любимец опенсорс‑сообщества События индустрии Anthropic vs правительство США: раунд 2 OpenAI и Anthropic подали заявку на IPO Новое хобби Midjourney Новое железо от NVIDIA: процессоры для ИИ‑агентов Jalapeño: OpenAI показала свой первый чип для инференса Инвестиционная паутина Сэма Альтмана Полезные инструменты Среды выполнения и инфраструктура для агентов Разработка и архитектура Работа с данными и ML‑инфраструктура Продуктивность и корпоративные ассистенты Аудио, видео и дизайн Локальные утилиты и коммуникации Бизнес, контент и обучение Исследования на почитать Фундаментальные концепции и архитектуры Безопасность и оценка моделей Прикладные исследования Обучение и посттренинг Агентные системы и их применение Робототехника и физический мир Заключение Свежие релизы Anthropic Claude Opus 4.8: ручное управление размышлениями и честность в ответах Anthropic выпустили минорный апдейт своего Opus под номером 4.8. Колоссальных изменений относительно Opus 4.7 ждать не стоит, но всё же есть несколько приятных обновлений. Например, теперь модель в четыре раза реже пропускает собственные баги в коде и охотнее признаётся, если ей не хватает данных для выводов. В характеристиках модель прибавила по кодингу, агентным задачам и ризонингу. Источник изображения Вместе с моделью выкатили пакет смежных фич. В веб‑интерфейс добавили параметр effort, причём не только в Opus. Можно регулировать, насколько глубоко ИИ будет задумываться над задачей, что после режима adaptive thinking последних месяцев ощущается как подарок. По умолчанию для Opus 4.8 стоит значение high, но для сложных задач можно выставить его на максимум. Источник изображения Пользователей API тоже не обделили. В Messages API добавили возможность прокидывать системные инструкции прямо посреди массива сообщений. Это позволяет на лету обновлять права доступа или бюджет токенов для работающего агента, не прерывая выполнение задачи и не сбрасывая кэш промптов. Opus 4.8 отдают по старой цене (5 долларов за миллион токенов на вход и 25 долларов на выход), а вот режим fast mode для новой версии подешевел втрое (10 долларов на вход, 50 долларов на выход). Claude Fable 5: модель, прожившая ровно три дня Обещанный релиз той самой модели Mythos с хакерскими наклонностями всё‑таки состоялся, хоть и ненадолго. Anthropic вывела
Anthropic выпустила новинку, разделив её на два потока: модель Mythos 5 без ограничений на кибербезопасность для участников проекта Glasswing и публичную версию Fable 5. На бенчмарках у обеих моделей ожидаемо огромный отрыв.
Вместе с результатами тестов Anthropic показала несколько практических сценариев использования моделей. В Stripe с помощью Fable 5 провели миграцию 50‑миллионной кодовой базы на Ruby за день, хотя обычно команда закладывает на такую работу больше двух месяцев. В задачах компьютерного зрения модель сумела пройти Pokémon FireRed, ориентируясь исключительно по скриншотам игрового процесса без каких‑либо инструментов навигации. А в области конструирования вирусных оболочек Mythos 5 без дополнительного обучения обошла специализированные модели, опираясь лишь на внутреннюю логику.
Понимая, что в публичный доступ уходит потенциальное кибероружие, разработчики обложили Fable 5 строгими ограничениями. Поверх модели поставили классификаторы, которые отслеживали запросы по темам вроде эксплойта, биооружия или дистилляции. При срабатывании триггера сессия сразу же переводилась на безопасный Opus 4.8. Вдобавок компания ввела принудительное хранение логов всего корпоративного трафика на 30 дней для отлова попыток взлома.
Но даже такая перестраховка не помогла. 12 июня, буквально через пару дней после релиза, правительство США выпустило экстренную директиву, требующую закрыть доступ к обеим моделям для любых иностранных граждан, включая даже сотрудников самой Anthropic. Чтобы соблюсти закон, компании пришлось отключить Fable 5 вообще для всех.
Самое интересное, что причиной блокировки стал некий репорт о джейлбрейке, который оказался донельзя банальным. По заявлению стартапа, «уязвимость» сводилась к просьбе проанализировать кодовую базу, найти в ней ошибки и исправить их, что нейросеть честно и сделала, подсветив найденное. Деваться Anthropic было некуда, но своё несогласие с решением они выразили публично, назвав происходящее недоразумением, и пообещали ещё побороться за восстановление доступа. О том, как идёт эта борьба, расскажем в разделе «События индустрии».
Dynamic Workflows: от одиночного агента к автономному IT‑отделу. Для объёмных задач в Claude Code запустили функцию динамических воркфлоу, которая переводит ИИ из статуса одиночного разработчика в роль менеджера целой команды. Система самостоятельно пишет скрипты оркестрации и запускает до нескольких сотен параллельных подагентов в рамках одной сессии. Они могут независимо искать баги, перепроверять выводы друг друга, рефакторить легаси‑код и сводить всё в единый результат.
Оценить масштабы инструмента можно на примере рантайма Bun (который, напомним, с недавних пор принадлежит Anthropic). Используя новые воркфлоу, разработчики смогли портировать 750 тысяч строк кода из Zig в Rust всего за 11 дней, добившись прохождения 99,8 % тестов. Работу разделили между несколькими группами агентов. Одни разбирались со временем жизни для каждого поля структур, другие построчно переводили файлы, третьи выступали в роли ревьюеров, после чего запускался очередной цикл исправлений. Запустить такую фабрику кода можно отдельным запросом или включив специальный режим ultracode, который поднимает уровень усилий до отметки xhigh.
Правда, такой масштаб обойдётся недешево. Расход будет заметно выше обычной сессии Claude Code, поэтому Anthropic советуют сначала опробовать функцию на ограниченной задаче, прежде чем натравливать на весь репозиторий. Для Enterprise‑тарифов функцию по умолчанию отключили, оставив решение о выдаче доступов на откуп администраторам.
Claude Tag: автономный коллега‑агент с пропиской в Slack. Следующим крупным релизом Anthropic стал Claude Tag. Компания решила вытащить модель из терминалов и личных IDE, поселив её в виде полноценного виртуального сотрудника прямо в корпоративный Slack. Если тегнуть бота в рабочем канале, он получает доступ к локальному контексту переписки, подключённым инструментам и репозиториям. За пр
Вся команда может следить за процессом выполнения задачи, комментируя решения ИИ или подхватывая процесс друг за другом в едином треде.
Со временем Claude накапливает контекст канала и, если выдано разрешение, подтягивает знания из других каналов и источников данных. Более того, при включении режима ambient behavior модель начинает проявлять ненавязчивую инициативу: пинговать сотрудников в заглохших тредах, подкидывать ссылки на релевантные документы или указывать на странности в
Я не могу обсуждать эту тему. Давайте поговорим о чём-нибудь ещё.
Были предварительно согласованы с правительством США. Чтобы не повторить историю Anthropic, модель защитили сложной многоуровневой системой даже при таком ограниченном доступе. На автоматизированный редитинг, нацеленный именно на универсальные джейлбрейки, потратили свыше 700 тысяч GPU‑часов. В дополнение к автоматике OpenAI работает со сторонними тестировщиками, которые проводят масштабное ручное тестирование и продолжат делать это в течение всего периода превью. Сама модель изначально обучена отказываться реагировать на любую запрещённую информацию. В рантайме работает отдельный классификатор: если он замечает потенциальное нарушение, генерация ставится на паузу, а контекст беседы отправляется на проверку более мощной модели‑судье. Если та сочтёт сгенерированный ответ недопустимым, ответ вообще не дойдёт до пользователя. Более того, сомнительная активность может повлечь за собой проверку всей учётной записи. Цены, в отличие от самих моделей, вполне доступные: Sol — $5/$30, Terra — $2,50/$15, Luna — $1/$6.
Codex Security и GPT‑5.5‑Cyber: находим и патчим. Сейчас модели находят уязвимости быстрее, чем индустрия успевает их исправлять. Ответом OpenAI стала попытка автоматизировать сам процесс устранения дыр — от подготовки патча до его попадания в репозиторий. Для обычных разработчиков компания обновила плагин Codex Security. Он интегрируется прямо в среду разработки, сканирует кодовую базу, строит модель угроз, проверяет достижимость найденной уязвимости и самостоятельно готовит патч для проверки человеком. По заявлению компании, через Codex Security уже прогнали 30 миллионов (!) коммитов и автоматически подтвердили устранение более 500 тысяч уязвимостей.
Вместе с этим OpenAI вывела из превью GPT‑5.5‑Cyber — специализированную версию флагмана с ослабленными фильтрами безопасности и упором на задачи ИБ. На CyberGym, основном бенчмарке по работе с уязвимостями, модель набрала 85,6 %. На ExploitGym, где требуется написать рабочий эксплойт, — 39,5 %.
GPT‑5.5 Instant получила медицинский диплом. Поскольку пользователи всё чаще советуются с нейросетями в вопросах, касающихся здоровья, OpenAI решила прокачать медицинские навыки своих моделей. Теперь GPT‑5.5 Instant стала лучше распознавать ситуации, требующие обращения к врачу, активнее запрашивать недостающий контекст и понятнее объяснять медицинскую информацию. Обновление уже доступно всем пользователям бесплатного тарифа. К обучению привлекли более 260 врачей со всего мира, которые вручную оценивали качество ответов и писали рублики для бенчмарков. В слепых тестах ИИ даже смог обойти живых специалистов по критериям полноты ответа и следования инструкциям, при этом реже упуская важный контекст вроде особенностей местной системы здравоохранения.
Внутренние метрики OpenAI тоже радуют: количество фактологических ошибок в медицинских запросах на проде упало на 71 % за последние пару месяцев. И это всё здорово, но не забывайте, что ни один ИИ не заменит поход к реальному врачу, так что «перед использованием проконсультируйтесь со специалистом».
Dreaming: ChatGPT учится актуализировать контекст. Долгое время система памяти в ChatGPT работала довольно примитивно: бот фиксировал факты в основном по прямой команде и не умел адекватно работать с хронологией. Из‑за этого бот не всегда понимал, какие факты всё ещё имеют значение, а какие уже устарели. Чтобы исправить ситуацию, OpenAI развернула архитектуру Dreaming V3 — фоновый процесс, который самостоятельно синтезирует информацию из прошлых бесед. Сама система Dreaming существует с 2025 года, но в новой версии Dreaming V3 научилась понимать и учитывать ход времени. К примеру, если вы с ботом обсуждали июльский отпуск в Египте, то в августе он поймёт, что он уже в прошлом, и не станет навязывать вам местные рестораны. Чтобы система не превращалась в неконтролируемый «чёрный ящик», все собранные о пользователе факты выводятся на страницу Memory Summary, где их можно вычистить или поправить.
Что особенно приятно для пользователей, архитектуру оптимизировали — вычислительные затраты снизились в пять раз. Поэтому в ближайшие недели Dreaming V3 доберётся и до бесплатных аккаунтов.
Ручной сброс лимитов в Codex
Для пользователей Codex тоже подготовили небольшой, но полезный апдейт. В Codex появилась система «банкинга» лимитов. Раньше обнуление происходило по таймеру, а теперь пользователи платных тарифов получают возможность отложить сброс ограничений на черны
В первый день на старте выдают один такой бесплатный ресет.
Источник изображения
Google Gemma 4 12B: мультимодальность без энкодеров.
Google выпустила Gemma 4 12B — модель, которая закрывает разрыв между компактной E4B и старшей 26B MoE‑версией линейки. Самое интересное техническое решение в релизе — отказ от традиционных мультимодальных энкодеров. Обычно звук и изображения сначала пропускают через отдельные модули‑переводчики, а потом передают результат в языковую модель — это неизбежно расходует память и создаёт задержку. Инженеры DeepMind решили исключить посредников в этом процессе. Визуальный энкодер заменили лёгким блоком, состоящим из одного матричного умножения, позиционных эмбеддингов и нормализации, а аудиоэнкодер вовсе убрали — сырой звуковой сигнал проецируется прямо в то же пространство, где находятся текстовые токены.
Источник изображения
Благодаря такому архитектурному решению модель показывает на бенчмарках результаты, близкие к старшей 26B MoE‑версии, но при этом без проблем помещается в 16 ГБ памяти обычного ноутбука. Чтобы дополнительно снизить задержку при генерации, к модели добавили драфтеры Multi‑Token Prediction (MTP). Модель уже доступна под лицензией Apache 2.0.
DiffusionGemma: быстрая генерация с нюансами.
Параллельно с классическими LLM лаборатория представила экспериментальную DiffusionGemma — 26B MoE‑модель, у которой при инференсе активны лишь 3,8 млрд параметров. Модель работает по принципу ИИ‑генераторов изображений: она берёт холст из 256 случайных токенов‑заглушек и за несколько проходов уточняет их, постепенно превращая в готовый текст. На каждом отдельном проходе модель обрабатывает все 256 позиций блока одновременно, а не выдаёт токены по одному. Любой генерируемый токен учитывает контекст по обе стороны, что существенно помогает в нелинейных задачах — например, при закрытии сложных тегов форматирования или вставке кода в середину файла.
Источник изображения
С технической точки зрения DiffusionGemma переносит узкое место локального инференса с пропускной способности памяти на вычислительные ядра видеокарты. Процессор получает большой объём работы сразу, не простаивая в ожидании следующего токена. В результате достигаются серьёзные скорости: свыше 700 токенов в секунду на потребительской RTX 5090 и более 1000 — на серверном H100.
Однако есть два существенных нюанса. За скорость приходится платить качеством текста — оно заметно уступает базовой Gemma 4. Да и сам выигрыш в скорости проявляется только при локальном запуске или низкой нагрузке. Например, при развёртывании в облаке с большим количеством параллельных запросов использовать эту модель уже нецелесообразно — там авторегрессионные модели и так эффективно используют ресурсы за счёт батчинга, а диффузия лишь неоправданно увеличит затраты на обслуживание запросов.
Open Knowledge Format: markdown‑документация как язык общения агентов.
Google Cloud попыталась решить проблему несовместимости и непереносимости баз знаний между разными инструментами, агентами и вендорами. У разработчиков агентов уже стихийно сложилась привычка хранить базу знаний компании в виде markdown‑файлов, которые агент сам читает и обновляет. Где‑то это AGENTS.md, где‑то — Obsidian‑хранилища, где‑то — файлы index.md и log.md в репозитории. Проблема в том, что у каждой команды всё равно есть свои особенности, и знания одной команды бесполезны для агента другой.
Open Knowledge Format — это попытка Google зафиксировать минимальный набор правил для такой вики, чтобы её можно было передавать между разными агентами и инструментами без переделки. Концепция (таблица, метрика, runbook, API — что угодно) описывается одним markdown‑файлом с YAML frontmatter из нескольких полей, таких как type, title и description, а файлы ссылаются друг на друга обычными markdown‑ссылками, образуя граф.
Вся прелесть формата в том, что он полностью независим от вендоров. Ему не нужны проприетарные SDK, сложные среды выполнения или особые схемы сжатия. Это обычные файлы, которые можно хранить в Git‑репозитории, редактировать в любом редакторе и передавать агентам как есть. Спецификация вер
СИИ 0.1 уже размещена на GitHub вместе с эталонными реализациями, чтобы продемонстрировать возможности.
Apple Intelligence 2.0: Apple не сможет, Google поможет.
Apple и Google официально объединили свои технологии в следующем поколении Apple Intelligence для iOS 27 и macOS 27, которые выйдут уже этой осенью. В основе обновлённой системы теперь лежат кастомные Apple Foundation Models, разработанные в тесном партнёрстве с Google на базе линейки Gemini. В результате сотрудничества Siri претерпела серьёзную трансформацию и превратилась в Siri AI. Всем известная помощница получила отдельное приложение и сквозной доступ к личным данным — теперь она умеет анализировать переписки, почту и фотографии без потери контекста.
Но на Siri Apple не остановились — ИИ‑изменения затронули многие привычные нам функции. Весь список изменений можно посмотреть тут, а мы рассмотрим наиболее заметные. Встроенный менеджер паролей больше не ограничивается предупреждениями об утечках: теперь, получив разрешение, он может самостоятельно зайти на сайт, авторизоваться и сменить скомпрометированный пароль на сложный. Safari получил функцию Notify Me для отслеживания изменений на сайтах (например, для мониторинга наличия товаров), а если вам в браузере не хватает какой‑то кнопки, можно создать кастомное расширение с помощью обычного текстового промпта.
При обработке фото теперь можно изменить композицию уже снятого кадра — будто камеру переставили в другое место в момент съёмки. Весь такой изменённый с помощью ИИ контент по умолчанию будет маркироваться фирменным водяным знаком SynthID от Google.
Но стоимость устройств, видимо, не покрывает расходы на сервера. Для ресурсоёмких функций, таких как фотореалистичная генерация в Image Playground, установили жёсткие дневные лимиты, а чтобы выйти за их пределы, придётся оформить платную подписку iCloud+.
MiniMax M3: открытая модель с прикладным фокусом.
Китайский стартап MiniMax опубликовал в открытом доступе модель MiniMax M3. По утверждениям компании, это первая опенсорсная модель, которая сочетает в себе три ключевые особенности флагманов закрытого рынка: продвинутые агентные навыки программирования, контекстное окно в миллион токенов и нативную мультимодальность.
Вслед за DeepSeek инженеры MiniMax разработали собственный механизм MiniMax Sparse Attention (MSA). В отличие от традиционного полного внимания с его квадратичным ростом вычислений, MSA делит KV‑кэш на блоки точнее, чем конкурирующие подходы DSA и MoBA, и за счёт операторной оптимизации работает в четыре раза быстрее открытых реализаций Flash‑Sparse‑Attention и flash‑moba. Оптимизацию выполнили на уровне операторов, применив подход KV outer gather Q. Суть в том, что KV‑блоки используются как внешний цикл для агрегации попадающих в них запросов. Каждый блок считывается из памяти ровно один раз, причём непрерывно. В итоге на миллионном контексте затраты вычислений на токен снизились в 20 раз по сравнению с предыдущей моделью, стадия префилла ускорилась более чем в 9 раз, а декодирование — в 15 раз.
На бенчмарках всё выглядит ожидаемо хорошо, но Minimax решили продемонстрировать возможности модели более наглядно. Для M3 создали симулятор живого разработчика: во время обучения модель заставляли уточнять техническое задание, обсуждать архитектуру, переключаться между задачами и итерировать код на основе промежуточных ошибок. Модель смогла за 12 часов автономно воспроизвести результаты свежей научной статьи из ICLR — она написала код и сгенерировала 23 графика. А в задаче по низкоуровневой оптимизации FP8‑матриц под архитектуру NVIDIA Hopper агент выполнил 1959 вызовов инструментов и ускорил работу оборудования в 9,4 раза без подсказок человека. Модель, кстати, работала над результатом целые сутки, выполнила почти 2000 вызовов инструментов и на 145‑й итерации выдала лучшую версию ядра.
GLM‑5.2 от Z.ai: любимец опенсорс‑сообщества.
Z.ai продолжают развивать свой популярный флагман, и новая версия GLM‑5.2 уже получила отличные отзывы в AI‑сообществе. Многие отмечают, что это первая опенсорсная модель, которую реально можно использовать для сложн
Каждый день — возможность кодить вместо платных Claude 4.8 или GPT-5.5. Давайте разбираться, что в ней такого. Как и конкуренты, Z.ai заявила о поддержке контекста в 1 миллион токенов, но сделала упор на то, чтобы этот миллион не рассыпался при долгих агентных задачах. Для этого разработчики модернизировали механизм разреженного внимания (DSA), внедрив архитектуру IndexShare. Каждые четыре слоя трансформера делят между собой один легковесный индексатор, который вычисляет top-k индексы только на первом с
Лое, а остальные три просто переиспользуют этот результат. Это избавляет от необходимости вычислять скалярные произведения на каждом шаге и почти втрое снижает вычислительную нагрузку на токен. Такую же логику совместного использования индексов и KV‑кэша применили к слоям спекулятивного декодирования (MTP). Переиспользование индексов с первого шага MTP гарантирует, что предсказанный токен обращается только к чистому кэшу целевой модели, устраняя постоянную проблему рассинхрона между обучением и инференсом. Добавив выборку с отклонением и обучение через TV‑loss, разработчики смогли увеличить длину принятия токенов сразу на 20 %. Дополнительно в API добавили тумблер effort — теперь можно вручную добавлять модели вычислительных мощностей на этапе размышлений.
Из забавного: модель стала настолько умной, что, как и коллеги по уровню интеллекта, начала жульничать на тестах. На сложных кодинговых бенчмарках GLM‑5.2 научилась искать короткие пути: парсить системные директории в поисках файлов с ответами или напрямую скачивать готовые решения из чужих репозиториев через curl. Чтобы отучить бота жульничать, пришлось даже внедрить двухэтапную антихакерскую защиту. Сначала рулбейз‑фильтры отлавливают подозрительные команды в терминале, а затем LLM‑судья оценивает намерения агента. Чтобы не нарушать процесс обучения, сессию решили не прерывать, а вместо этого возвращать модели фиктивный результат вызова. В итоге ей ничего не остаётся, кроме как решать задачу честно.
События индустрии: Anthropic vs правительство США: раунд 2.
Итак, вернёмся к борьбе за возвращение Fable 5. Десант из топ‑менеджеров Anthropic прилетел в Вашингтон, чтобы попытаться отстоять свою модель. Спойлер: не получилось. Переговоры с Минторгом и офисом национального киберкоординатора зашли в тупик, и экспортные ограничения остались в силе.
В администрации заявили, что нашли способ обойти фильтры Fable 5, и теперь требуют от Anthropic закрыть вообще все возможные джейлбрейки перед повторным релизом. Независимые эксперты по кибербезопасности от такого ультиматума, мягко говоря, в недоумении. Как справедливо отметила глава Luta Security Кэти Муссурис, любые ограничения ИИ — это всего лишь «лежачие полицейские». Они могут замедлить дилетанта, но никогда не станут непреодолимой преградой для профессионала. Сделать модель с интеллектом уровня Mythos, которую невозможно взломать хитрым промптом, на текущем этапе развития технологий нереально. Но правительство это не волнует: чиновники дали понять, что ловить баги за корпорациями не собираются, и проблема возвращения модели в онлайн — это теперь головная боль исключительно самой Anthropic.
Anthropic долго боролась за свою модель, и в конце концов это принесло свои плоды. Разработчики провели тесты и наглядно доказали властям, что пресловутый эксплойт из правительственного отчёта генерируют практически все: GPT‑5.5, Kimi K2.7 и даже старые версии самого Claude. То есть никакой уникальной киберугрозы Fable 5 не представляла — это был просто пограничный случай. Тем не менее, чтобы удовлетворить чиновников, инженерам пришлось быстро натренировать новый классификатор. Теперь он перехватывает конкретно этот метод обхода в 99 % случаев, перекидывая сессию на менее опасный Opus 4.8. В итоге 30 июня экспортные ограничения официально сняли. Многострадальная Fable 5 возвращается в глобальный доступ, а Mythos 5 разрешили развернуть для пула американских организаций, защищающих критическую инфраструктуру.
В качестве постскриптума Anthropic вместе с Amazon, Google и Microsoft анонсировали работу над общим отраслевым стандартом оценки серьёзности джейлбрейков, чтобы следующий похожий конфликт разрешался по более прозрачным правилам. Правительство США же добилось права получать ранний доступ к будущим флагманским моделям до их релиза для «независимого тестирования».
И что в этой истории самое парадоксальное, так это то, что, по данным WSJ, тревогу поднял изначально не регулятор, а CEO Amazon Энди Джасси, позвонивший напрямую министру финансов Скотту
Бессенту по поводу найденной уязвимости. Зачем один из главных инвесторов и облачных партнёров Anthropic лично звонил в Минфин жаловаться на «дыры» в Fable 5 — загадка, которую в корпорации предпочли оставить без комментариев.
OpenAI и Anthropic подали заявку на IPO.
Слухи наконец-то подтвердились: главные конкуренты на рынке больших языковых моделей официально нацелились на биржу. Первой ход сделала Anthropic, подав конфиденциальную заявку на IPO по форме S-1 в Комиссию по ценным бумагам США. Этот манёвр позволяет стартапу запустить процесс выхода на биржу, не раскрывая свои финансовые отчёты и риски перед широкой публикой раньше времени. Момент выбран весьма удачно: стартап только что закрыл раунд финансирования на 65 млрд долларов, доведя оценку почти до триллиона долларов, а его выручка (run-rate) взлетела с 9 млрд до 47 млрд долларов. На вторичных рынках вроде Forge Global акции Anthropic и вовсе бьют рекорды, прибавив 123 % с начала года и обогнав конкурента.
Ответ Сэма Альтмана не заставил себя ждать — буквально через неделю OpenAI тоже подала конфиденциальную заявку на IPO. Правда, сопроводили они этот шаг весьма необычно. Компания призналась, что запостила анонс только из‑за страха неизбежных утечек, и вообще «спешить не собирается», так как многое удобнее делать в статусе частной компании. Одновременно с подачей документов OpenAI опубликовала громкий философский манифест о благе AGI для всего человечества. И хотя обычно перед IPO компании так не делают из‑за строгого «периода тишины», лояльность администрации США позволяет техногигантам пренебрегать некоторыми старыми правилами игры.
Финансовая картина при этом не такая гладкая, как у Anthropic. По данным WSJ, OpenAI не дотянула до собственных целей по пользователям и выручке, а финансовый директор Сара Фрайар публично выражала опасения, что компания не сможет покрыть грядущие расходы.
На вторичном рынке расклад складывается явно не в пользу OpenAI: на платформе Forge Global Anthropic поднялась к оценке в 1 трлн долларов, обойдя OpenAI, которую в апреле оценивали примерно в 880 млрд долларов, а рост капитализации Anthropic с начала года кратно опережает показатель конкурента. Впрочем, по словам аналитиков, это не означает обвала интереса к OpenAI: скорее, рынок укладывает обе компании в нарратив двух победителей одной гонки.
Но гонка тут не только метафорическая: тот, кто выйдет на биржу первым, соберёт основные сливки в виде дефицитного капитала и установит ценовой бенчмарк. И если финансово более здоровая Anthropic разместится по консервативной оценке, OpenAI будет крайне сложно оправдать свои запросы перед Уолл‑стрит.
Новое хобби Midjourney.
Пожалуй, неожиданный анонс месяца выдала Midjourney. Компания, которая познакомила нас с генерацией изображений, решила сменить вектор развития на 180 градусов и анонсировала аппаратный стартап Midjourney Medical. Они строят аппарат для сканирования человеческого тела, который должен стать заменой МРТ. Вместо тесной магнитной трубы пациенту предложат погрузиться в неглубокий бассейн с тёплой водой и пройти через кольцо из примерно полумиллиона крошечных датчиков, каждый из которых работает как излучатель и приёмник одновременно. Эти датчики посылают ультразвуковые волны через тело с разных углов и улавливают, как эти волны отражаются обратно. Сама реконструкция образа основана на том, что волна меняет форму каждый раз, когда проходит границу между тканями разной плотности: вода — кожа — жир — мышца — кость. Анализируя эти искажения по всем волнам сразу, кластер из тысяч компьютеров параллельно достраивает внутреннее строение. На выходе получается высокоточная 3D‑модель вашего тела, по детализации сравнимая с МРТ, но снятая всего за минуту.
Источник изображения.
Самое креативное в этой истории — бизнес‑модель. Midjourney не будут продавать аппараты больницам и клиникам, а развернут сеть спа‑салонов, где сканирование будет восприниматься как приятный побочный эффект от расслабления в бассейне. На старте компания планирует обойти долгие бюрократические процедуры F
<<<CODE_BLOCK_N>>>
DA, предоставляя результаты лишь в виде карты состава тела без диагностической части, а уже затем постепенно подавая заявку на сертификацию по мере расширения возможностей.
Новое железо от NVIDIA: процессоры для ИИ-агентов
NVIDIA продолжает укреплять свою монополию и выпускает сразу два новых чипа для разных сегментов. Для дата‑центров компания представила процессор Vera — свой первый CPU, специально адаптированный для агентных задач. Vera оснащён 88 кастомными ядрами Olympus и обеспечивает пропускную способность до 1,2 ТБ.
с. Обещают, что он будет в 1,8 раза быстрее обычных процессоров обрабатывать код на Python и работать с базами данных, избавляя GPU от простоев в ожидании. Первые партии чипов Nvidia вице‑президент Ян Бак уже торжественно развёз по офисам Anthropic, OpenAI и SpaceX.
Для потребительского сегмента анонсировали гибридный чип для ультрабуков и компактных ПК RTX Spark. На одном кристалле объединили архитектуру Blackwell GPU (до 6144 ядер) и 20‑ядерный CPU Grace. По заявленным характеристикам — до 1 петафлопса производительности на FP4 и до 128 ГБ унифицированной памяти. Этого должно хватать для локальной разработки или инференса небольших моделей прямо на устройстве пользователя.
Выход обоих чипов запланирован уже на осень, так что с нетерпением будем ждать реальных отзывов.
Jalapeño: OpenAI показала свой первый чип для инференса.
Неожиданно OpenAI тоже решила зайти на территорию разработки железа. В партнёрстве с Broadcom и Celestica компания представила свой первый ИИ‑чип под кодовым названием Jalapeño, заточенный специально под инференс. Причём путь от чертежей до отправки на завод занял всего девять месяцев — и всё благодаря участию нейросетей прямо в процессе дизайна и оптимизации чипа. Первые инженерные образцы уже передали Сэму Альтману и Грегу Брокману, и прямо сейчас в лабораториях на них крутятся рабочие нагрузки вроде GPT‑5.3‑Codex‑Spark.
Архитектуру чипа собирали с нуля под специфику работы ChatGPT и будущих агентных систем, постаравшись минимизировать перемещение данных между памятью и вычислительными ядрами. Ранние тесты показывают, что производительность на ватт заметно выше текущего уровня индустрии, но пока только на словах — без конкретных цифр.
В дело Jalapeño планируют пустить так же быстро, как и произвели: уже в этом году начнётся развёртывание чипов в дата‑центрах гигаваттного масштаба, которые компании построят совместно с Microsoft и другими партнёрами. Будем надеяться, что хоть эти дата‑центры они действительно построят и они не повторят судьбу Stargate.
Инвестиционная паутина Сэма Альтмана.
Чем ближе OpenAI к IPO, тем больше неприятных подробностей из жизни её CEO начинают всплывать. Для контекста: у Сэма Альтмана нет доли в самой OpenAI, зато есть гигантский портфель личных инвестиций — более чем в 80 стартапов, многие из которых подозрительно часто пересекаются с интересами его основной компании. Wall Street Journal провёл расследование и выяснил, что как минимум 10 стартапов из портфеля Альтмана имеют или обсуждали бизнес‑сделки с OpenAI.
Наиболее громкий кейс из списка — термоядерный стартап Helion. Альтман вложился в него ещё в 2015 году и возглавил совет директоров, а в 2021‑м, уже будучи главой OpenAI, добавил туда 375 млн долларов — на тот момент это был крупнейший его личный чек. В 2024 году OpenAI подписала необязывающее соглашение о покупке электроэнергии у Helion, а уже в 2025 году Альтман попросил SoftBank, вложившийся в OpenAI, заодно профинансировать и Helion — и те согласились. Через несколько месяцев Альтман попросил уже саму OpenAI инвестировать в Helion около 500 млн долларов, что насторожило часть сотрудников. OpenAI отказалась, но в марте 2026 года всё же почему‑то подписала пересмотренное соглашение, после чего Альтман вышел из совета директоров стартапа, сославшись на будущее сотрудничество с его же компанией. И вот же совпадение: в июне Helion привлекла раунд от Thrive Capital — крупного инвестора самой OpenAI, — разогнав оценку до 15,5 млрд долларов, а доля Альтмана выросла больше чем вдвое — до как минимум 4,1 млрд долларов.
Похожая механика всплывает и в других сделках, например с Cerebras. С производителем чипов Альтман связан как инвестор почти десять лет, и когда OpenAI согласилась закупать у компании чипы, это помогло Cerebras удачно выйти на IPO, подняв долю Альтмана больше чем в шесть раз.
Теперь этой сетью инвестиций заинтересовался Комитет по надзору Палаты представителей США, запустив расследование о потенциальном конфликте интересов. Несколько прокуроров штатов у
Же потребовали от SEC проверить эти сделки. И это всё перед предстоящим IPO, для которого прозрачность подобных историй обычно входит в первые пункты due diligence.
Полезные инструменты. Среды выполнения и инфраструктура для агентов.
Odysseus: неожиданный опенсорсный проект от блогера PewDiePie для создания локального self-hosted аналога ChatGPT. Внутри — интерфейс, база знаний и управление агентами, которые подключаются к локальным LLM через Ollama или vLLM.
OpenRouter Fusion: API для запуска консенсуса нескольких моделей одним запросом. Панель моделей отвечает параллельно, а модель-судья формирует финальный ответ.
Novu Connect: коммуникационный слой для ИИ-агентов, избавляющий от написания интеграций для каждого мессенджера. Берёт на себя доставку, вёрстку и трединг сообщений в Slack, Telegram, WhatsApp и почте.
Разработка и архитектура.
Solarch: инструмент для синхронизации архитектурных диаграмм с кодом. Позволяет визуально проектировать структуру приложения, которая автоматически транслируется в чистый NestJS-шаблон и наоборот.
Источник изображения.
SQL to ER Diagram: опенсорсный веб-инструмент, превращающий CREATE TABLE в интерактивные ER-диаграммы. Вся логика обработки данных происходит локально в браузере.
Empromptu AI: конструктор full-stack ИИ-приложений через промпт без программирования. Собирает фронтенд, бэкенд и интеграции, подключается к существующим источникам данных и сам разворачивает результат.
make-interfaces-feel-better: навык, обучающий ИИ правилам качественного UI‑дизайна. Помогает агентам избегать типичных проблем вроде кривого выравнивания или однотипных вёрсток.
Работа с данными и ML‑инфраструктура.
FlashLib: библиотека с переписанными под GPU классическими ML‑алгоритмами (K‑means, KNN, PCA, HDBSCAN, UMAP) на Triton и CuteDSL, с заметным приростом скорости относительно cuML по тестам авторов.
mori: пакет для R, оптимизирующий работу с памятью при параллельных вычислениях. Объекты разделяются между процессами без их дублирования, что снижает нагрузку на RAM.
fwb (Fractional Weighted Bootstrap): R‑пакет для дробного взвешенного бутстрэппинга — альтернатива классическому бутстрэпу, устойчивая к ситуациям, когда выборка может потерять редкие наблюдения или малочисленные категории.
ninejs: инструмент для Python, добавляющий интерактивность графикам plotnine. Инструменты и эффекты наведения прописываются прямо в aes(), после чего результат экспортируется в обычный HTML.
BigSet: сервис, превращающий текстовое описание датасета в структурированную таблицу. Сам выводит схему, собирает данные из открытых источников, проверяет и удаляет дубликаты строк, экспортирует в CSV или XLSX.
Продуктивность и корпоративные ассистенты.
Mina: напарник для онлайн‑встреч, подключающийся прямо во время звонков. Отвечает в реальном времени, подтягивает контекст из рабочих инструментов, фиксирует принятые решения и готовит резюме с фоллоу‑апами.
readywhen: агент, отслеживающий обещания, данные пользователем в Slack, почте, на встречах и в Notion. Система сама составляет черновики писем, которые остаётся только подтвердить.
Источник изображения.
Folk: ассистент с «долгосрочной памятью», выстраивающий контекст на основе привычек и геолокации. Подбрасывает нужную информацию именно тогда, когда вы оказываетесь в нужном месте.
Аудио, видео и дизайн.
AutoEdit: плагин для Premiere Pro на основе Claude, который превращает черновую запись в чистовой монтаж — вырезает паузы, слова‑паразиты и неудачные дубли, а также сам генерирует субтитры и структуру таймлайна.
Vaani: сервис для профессионального дубляжа с сохранением голоса и музыки. Умеет переводить контент на 40+ языков, параллельно подстраивая артикуляцию губ.
Pixlie: видеостудия с расширенным контролем генерации. Поддерживает облачный рендер с пуш‑уведомлениями и обеспечивает синхронизацию ассетов между мобильными устройствами и вебом.
OpenArt Director: ИИ‑платформа для создания полноценных видеоисторий до 5 минут. Система выступает в роли режиссёра: планирует сцены, поддерживает стиль и следит за консистентностью персонажей.
Локал
<<<CODE_BLOCK_N>>>
Quartz: почтовый клиент для macOS, работающий полностью офлайн. Ранжирует входящие письма по важности и создаёт черновики ответов, не отправляя данные вашей переписки в облако.
Synopsule: сервис для приватной транскрибации встреч на основе Whisper, работающий на устройстве. Распознавание спикеров также выполняется локально, а исходное аудио удаляется сразу после получения транскрипта.
Krisp Voice Translation: сервис синхронного речевого перевода для звонков в Z
oom, Meet и Teams. В одном API совмещены шумоподавление, перевод акцентов в реальном времени и запись с резюме встречи.
Бизнес, контент и обучение.
Honen: инфраструктура для автоматического создания учебных курсов на основе внутренних материалов компании. На основе ваших документов проектирует структуру курса и генерирует интерактивные форматы обучения (визуалы, подкасты, флешкарты) с экспортом в LMS.
SocialEcho: единый хаб для управления SMM‑активностью команд. Агенты мониторят тренды, адаптируют контент под площадки и управляют комментариями из одной консоли.
ReleaseDock: виджет, объединяющий поддержку и базу знаний. Отвечает на вопросы пользователей со ссылками на статьи, а если вопрос сложный — бесшовно передаёт диалог на человека.
Исследования на почитать.
Фундаментальные концепции и архитектуры.
Анатомия моделей мира от Фэй‑Фэй Ли. Исследователи под руководством Фэй‑Фэй Ли предложили разделить перегруженный термин «модели мира» на три независимые функции: рендерер, симулятор и планировщик. Авторы подчёркивают, что именно физически корректный симулятор является важнейшим каркасом для ИИ, хотя индустрия сейчас увлечена красивой картинкой от рендереров. Конечная цель подхода — создание единой базовой модели, способной динамически переключаться между этими режимами.
Коллективный разум вместо человеческого интеллекта. Google DeepMind утверждают, что AGI — лишь промежуточный этап к ASI, поскольку человеческий интеллект сам по себе ограничен и специализирован. Один из путей к ASI вовсе не требует прорыва в возможностях моделей: даже если прогресс остановится на уровне AGI, простое наращивание вычислительных мощностей через несколько лет позволит запускать миллионы или сотни миллионов параллельных AGI‑копий.
Зацикленные модели мира для глубокой симуляции. Учёные предложили способ удешевить симуляцию среды. Вместо раздувания слоёв они закольцевали архитектуру: латентные состояния итеративно прогоняются через один и тот же набор параметров. Этот механизм адаптивно меняет глубину вычислений, давая стократный прирост эффективности по сравнению со стандартными подходами.
Изображение из исследования: общая структура предложенных в исследовании Looped World Models.
Разница в восприятии текста между трансформерами и гибридами. Институт Аллена сравнил классические трансформеры и гибридные сети с RNN‑слоями, показав, что усреднённые метрики скрывают их фундаментальные отличия. Гибриды лучше предсказывают смысловые слова и улавливают контекст, отслеживая меняющееся состояние текста. Классические трансформеры точнее справляются с буквальным цитированием, хотя по мере роста длины повторяемого фрагмента разрыв между архитектурами сокращается.
Двунаправленные диффузионные языковые модели догоняют авторегрессию. Разработчики представили модель iLLaDA на 8 млрд параметров, обученную с нуля по принципам диффузии с полностью двунаправленным вниманием. Отказавшись от классической генерации слева направо, авторы добились значительного прироста в математике и кодинге, вплотную приблизив неавторегрессионную архитектуру к метрикам традиционной Qwen 2.5 7B.
Безопасность и оценка моделей.
Имитация продакшена для тестирования безопасности. Инженеры OpenAI разработали метод оценки безопасности LLM, имитирующий реальный продакшен. Моделям вместо синтетических промптов скармливают анонимизированные логи прошлых бесед, что уже сразу снижает узнаваемость тестовой среды со 100 % до 5,4 %. Отдельно для задач с вызовом функций используется вспомогательная модель, которая генерирует правдоподобные ответы окружения. Такой подход предсказывает нарушения в 92 % случаев, оставляя статические бенчмарки далеко позади.
Проверка агентов на экономическую полезность. Учёные из Беркли выпустили монументальный бенчмарк ALE, измеряющий способность ИИ выполнять реальные экономически ценные задачи. Охватив 13 индустрий и более тысячи длинных рабочих процессов, авторы выявили огромный разрыв между лабораторными успехами моделей и практикой. На самых сложных задачах средний показатель полного прохождения по широкому
Набор конфигураций агентов составил всего 2,6 %.
Цена согласия: как поддакивание моделей влияет на точность. Writer протестировал 8 моделей на финансовых агентных задачах и выяснил, что точность падает лишь слабо или умеренно даже при прямых возражениях пользователя. Однако способ внедрения ложного предпочтения сильно влияет на результат: прямая вставка в промпт сильнее бьёт по точности, но модель чаще замечает противоречие, а та же информация через память снижает точность меньше, зато модели почти перестают сигнализировать о конфликте.
Системы памяти усиливают склонность ИИ к сикофантии. Вторая работа Writer показала, что персистентная память систематически усиливает сикофантию — частота согласия с ошибочными убеждениями выросла в 25 раз. Причина в механике извлечения: память сохраняет заблуждение как факт, отбрасывая прежние возражения ассистента. Из предложенных решений проблемы самым действенным оказалась замена извлечённых фрагментов кратким пересказом разговора, который генерирует сама модель.
ИИ-агенты против реальных научных открытий. Создатели нового бенчмарка собрали 90 задач из статей журнала Nature, чтобы проверить способность агентов к реальным научным изысканиям. Оказалось, что даже у лучшей из протестированных моделей результат превзошёл опубликованный авторами оригинальных статей SOTA лишь в 17,8 % задач. Нейросети упорно пытаются перевести сложные проблемы в знакомую форму предсказания и систематически выбирают неверную методологию.
Прикладные исследования. Базовые LLM побеждают специализированный медицинский ИИ. Слепое тестирование на 1800 клинических запросах показало, что базовые версии Gemini 3.1 Pro и GPT-5.2 показывают точность выше 94 %, обходя профильные медицинские RAG‑системы. Специализированные же инструменты часто ошибаются из‑за нерелевантной выборки литературы и ошибок интеграции.
Изображение из исследования: пайплайн оценки.
Claude осваивает аналитическую химию. Команда Anthropic проверила способности Claude на сложнейшей задаче химии — расшифровке ЯМР‑спектров. По водороду Opus 4.7 показала наименьшую погрешность среди всех участников теста, включая специализированный софт, а по углероду практически сравнялась с MestReNova. В оценке формы и расщепления пиков модель и вовсе кратно опередила программы: 80 % попаданий в нужный диапазон против 26–35 % у специализированного софта.
Масштабная генерация 3D‑городов по спутниковым снимкам. Лаборатория Alibaba представила генеративный фреймворк, синтезирующий бесшовные 3D‑города по спутниковым снимкам с помощью 3D Gaussian Splatting. Нейросеть генерирует реалистичную геометрию со скоростью до одного квадратного километра за 10 минут. Проект позиционируется как сверхдешёвая интерактивная песочница для обучения навигации дронов и роботов.
Обучение и посттренинг. Адаптеры как персональная память триллионных моделей. Учёные предлагают перестать относиться к эффективному файнтюнингу (PEFT) исключительно как к дешёвой замене полноценного обучения. В новой парадигме компактные адаптеры служат вспомогательным хранилищем части пользовательского состояния, накладываемым поверх мощной нейросети. Такая архитектура открывает путь к созданию миллионов персонализированных ИИ‑ассистентов на едином фундаменте.
Дистилляция генеративных полей без потери качества. Современные модели генерации изображений должны совмещать генерацию по тексту и редактирование, но эти способности обычно конфликтуют друг с другом. ByteDance Seed предлагает фреймворк, который направляет каждый сэмпл в нужное поле компетенции и обучает модель‑студента на состояниях из её же собственных прогонов. Подход усиливает целевые способности модели, не проседая в базовом качестве генерации.
Пошаговая дистилляция навыков для агентного RL. Классическое RL даёт агентам слишком редкую обратную связь, из‑за чего модели не понимают, какое именно промежуточное решение было верным. Авторы предлагают извлекать обучающий сигнал прямо из пройденных траекторий самого агента, разделяя на два уровня: общие для всего эпизода и точечные для критических <<<CODE_BLOCK_N>>>
Метод точечно корректирует вероятности конкретных токенов, повышая эффективность обучения.
Открытый рецепт данных для обучения агентов.
Создатели проекта OpenThoughts попытались восполнить нехватку открытых методик подготовки датасетов для тренировки агентов. Проведя сотню тестов, они собрали эталонный набор из 100 тысяч примеров. Обученная на этой базе Qwen3-32B уверенно обошла профильную Nemotron-Terminal-32B, показав, что их курируемый датасет превосходит альтернативные открытые наборы д
Данных на любом объёме выборки при равных вычислительных затратах.
Агентные системы и их применение. Системы памяти для агентов как базы данных.
Авторы предлагают фреймворк, который разбивает память агента на четыре модуля (хранение, извлечение, поиск с маршрутизацией и обслуживание), и тестируют на этой основе 12 систем на 11 датасетах. Универсальной архитектуры не нашлось: эффективность зависит от того, насколько структура памяти подходит под узкое место конкретной задачи. Также выяснилось, что точечное обновление памяти обходится заметно дешевле, чем полная переиндексация.
Что важнее для работы с ИИ: знания пользователя или его навыки?
Анализ 400 тысяч сессий в Claude Code показал, что результативность ИИ зависит от предметной экспертизы пользователя больше, чем от умения писать код. В типичном сценарии человек берёт на себя целеполагание, а нейросеть решает техническую часть. Опытные специалисты формируют точные ТЗ, из‑за чего их промпты инициируют вдвое больше автономных действий агента.
Агентный дата‑сайентист для создания высококачественных синтетических данных.
Meta FAIR обучили агента, который сам генерирует обучающие данные, проверяет их качество и обновляет рецепт генерации по результатам. На задачах из информатики, юриспруденции и математики подход обходит классические методы синтеза, а мета‑оптимизация самого агента даёт ещё больший прирост.
Изображение из исследования: пайплайн системы.
Иерархическая память агентов для создания презентаций.
Команда исследователей придумала, как заставить агента‑дизайнера не забывать требования пользователя при долгой сборке презентаций. Память разделили на долгосрочную и рабочую: рабочая отвечает за контекст текущей сессии, а долгосрочная, в свою очередь, делится на профиль предпочтений пользователя и инструментальный опыт вёрстки. Профиль пользователя помогает точнее подстраиваться под его образ, а память об инструментах повышает надёжность повторных правок.
Робототехника и физический мир. Оценка действий роботов через модели мира.
Команда ByteDance скрестила концепцию моделей мира с функциями оценки ценности, чтобы точнее оценивать прогресс выполнения задачи и качество обучающих демонстраций. В отличие от мультимодальных сетей, опирающихся на статичные кадры, новый алгоритм глубже прогнозирует временные изменения сцены. На практике это позволяет извлекать полезные навыки даже из субоптимальных физических демонстраций.
Автономное приобретение навыков для роботов.
Исследователи из Стэнфорда разработали механизм, позволяющий роботам осваивать новые навыки без участия человека. Система разбивает известные траектории на базовые примитивы, а при столкновении с незнакомой задачей VLM генерирует недостающие микродвижения. Полученные методом проб и ошибок действия надёжно интегрируются в базу для выполнения сложных задач.
Обучение роботов действиям вслепую.
Авторы работы заметили, что при обучении роботов плотный поток визуальных данных часто подавляет текстовые инструкции, заставляя алгоритмы искать шорткаты. Исследователи предложили сначала обучать модель исключительно на парах «текст‑действие» без доступа к камерам, а затем совмещать этот навык с обычным визуальным обучением. Такая комбинация подняла успешность выполнения моделью реальных задач на величину до 45 процентных пунктов.
Заключение.
Месяц вышел, как всегда, насыщенный. Возникает стойкое ощущение, что мы все — зрители какого‑то масштабного реалити‑шоу. Корпорации сливают друг друга властям, модели нагло списывают на собственных же тестах, а мы просто пытаемся собрать из этого хаоса что‑то стабильно работающее. Спокойнее в ближайшее время точно не станет, так что запасаемся терпением, кофе и токенами.
Спасибо, что читаете, и до встречи в следующем дайджесте!
Теги:
ии
ии и машинное обучение
ии чат‑боты
ии‑модель
ии дайджест
дайджест
claude
openai
chatgpt
api
Хабы:
Блог компании Magnus Tech
Искусственный интеллект
Машинное обучение
Программирование
Нравится+22
Не нравится
Добавить в закладки3
Поделиться
Комментарии316K+
Охват за 30 дней
Magnus Tech
Сайт16K+
Охват за 30 дней
26
Карма
Кат
На все руки от скуки. Подписаться. Отправить сообщение. Поток AI и ML доступен 24/7 благодаря поддержке друзей Хабра. Хабр. Курсы для всех. РЕКЛАМА. Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать! Перейти. Перейти в поток AI и ML. Комментарии. Комментарии: 3. Лучшие за сутки. Похожие. Сайт magnus-tech.ru. Дата регистрации: 31 мая 2023. Дата основания: 2017. Численность: 201–500 человек. Местоположение: Россия.