NVIDIA NitroGen и новинки ICML 2026: достижения в ИИ

Технология NVIDIA NitroGen номинирована на премию CVPR 2026 за лучшую работу. Модель фокусируется на эффективной генерации изображений, обеспечивая баланс между качеством и эффективностью вычислений. Это знаменует переход в компьютерном зрении от «восприятия» к «генерации».

На CVPR 2026 представили набор данных PHYSIINONE — «Момент визуальной физики ImageNet». Он содержит 2 млн видеороликов и более 150 тыс. динамических 3D-сцен, охватывающих 71 вид физических явлений (механика, оптика, жидкости, магнетизм), с полными 2D/3D/4D/текстовыми аннотациями. Данные создают новую инфраструктуру для моделирования мира и исследований в области ИИ.

По данным CVPR за 2026 год, количество статей о VLA выросло в 5 раз, а о мировых моделях — в 3 раза. В статье Beyond NL2Code (arXiv: 2606.15932) представлен обзор мультимодального кода в научных работах. Авторы выделяют роль кода в пяти формах: оказание продукта, редактируемая символическая структура, научная обоснованность, промежуточные траектории рассуждений, исполняемый инструмент интерфейса. Исследователи предлагают развивать работы в четырёх направлениях: мультисигнальный контроль, мультигосударственная поверка, кросс-задачный перенос испытаний и проверка агентов траектории.

В работе Йозефа Чэнь (arXiv: 2606.27288) представлены эксперименты на 67 современных моделях от 21 поставщика. Установлено, что для любой стратегии, где выход — результат одной из моделей, точность не превышает (1−β), где β — вероятность того, что все модели ошибутся на один и тот же запрос одновременно. Эксперименты показали β=0,052 для открытых математических задач и β=0,079 для выполнения кода. Автор подчёркивает, что ключ к эффективному мультимодельному взаимодействию — не средняя корреляция, а общая интенсивность отказов.

ICML 2026 (проходила в Сеуле с 6 по 11 июля) представила 1843 работы по 51 направлению исследований. Среди ключевых моментов — логические рассуждения LLM (78 статей). Например, BG-MCTS предлагает стратегию поиска в дереве с учётом бюджета, которая превосходит базовые подходы при фиксированном бюджете токенов. TTC моделирует логические рассуждения LLM как задачу оптимального управления, улучшая математические показатели на 27,8%. IStar предлагает общую стратегию распределения кредитов для нескольких раундов интенсивного обучения для агентов LLM.

Компания Runway выпустила модель видеогенерации Gen-4.5, которая обеспечивает высокую точность изображения и широкие возможности творческого контроля. Модель поддерживает вывод видео на уровне видеороликов и предоставляет неограниченную творческую свободу.

Mistral AI трансформируется из производителя моделей в европейского партнёра в сфере ИИ, предоставляющего полный комплекс услуг. Компания получила оценку в 114 млрд долларов и вошла в рейтинг 50 лучших компаний мира по версии Forbes (2026). Серия Mistral Large 3 выпущена с открытым исходным кодом (Apache 2.0) и хорошо справляется с многоязычными задачами и генерацией кода.