Vidu S1, который подталкивает поколение видео к новой эре взаимодействия в реальном времени

Vidu S1, который открывает новую эру взаимодействия в реальном времени для поколения видео.

Это через:
Семь.

2026-07-03 20:48

3 июля компания Biotech официально запустила новое поколение моделей для интерактивных сценариев в реальном времени — Vidu S1.

3 июля на Форуме по разработке приложений для интеграции искусственного интеллекта на Глобальном цифровом экономическом конгрессе 2026 года основатель численной науки и технологий Чжу Цзюнь выступил с основным докладом под названием «Общая мировая модель, новая парадигма интеграции цифрового мира с физическим миром» и официально запустил новое поколение моделей для интерактивных сцен в реальном времени Vidu S1. В ходе Конгресса Пекинская ассоциация программного обеспечения и информационных услуг (BSIA) официально опубликовала отчёт по оценке предприятий по стандарту цифровой экономики Пекина 2025 года, в котором успешно выбраны предприятия по стандарту новой модели с выдающимися показателями в области технологических инноваций и промышленных приложений.

Модель взаимодействия в реальном времени Vidu S1 предоставляет возможности генерации видео нового поколения — с ними можно взаимодействовать в режиме реального времени. Она превращает видео с использованием искусственного интеллекта из «создания фрагмента контента» в «непрерывное взаимодействие». Модель поддерживает видеозвонки в режиме реального времени и видеозвонки с голосовым управлением. Пользователи могут не только управлять поведением цифровых людей с помощью голоса, но и взаимодействовать с ними неограниченно долго.

В то же время Vidu S1 поддерживает разрешение высокой чёткости 540P (960×540) и частоту кадров 25 кадров в секунду (до 42 кадров в секунду). Он может быстро создавать эксклюзивных интерактивных персонажей на основе любого исходного изображения и персонализированного звука — например, реальных людей, персонажей аниме, милых домашних животных и так далее. Это обеспечивает пользователям более естественный, плавный и захватывающий интерактивный процесс в режиме реального времени.

Голосовые команды выполняются в режиме реального времени — от автономной генерации до ответа в реальном времени. Это позволяет цифровым пользователям по‑настоящему «понимать» людей.

Традиционные модели видео обычно работают в автономном режиме: «ввод подсказки — ожидание генерации — воспроизведение результатов». После создания видео его содержание и направление в основном фиксируются. Если нужно изменить действие или сюжет, придётся заново ввести подсказку, чтобы создать видео заново. Пользователи и видео по‑прежнему находятся в автономном режиме — связь ограничивается «созданием и просмотром».

Vidu S1 нарушил эту границу. Пользователи могут продолжать вводить голосовые команды во время видеозвонка, а модель объединяет голосовой контент, контекст диалога и текущее состояние экрана, чтобы в реальном времени генерировать последующий контент и действия персонажа.

В то же время Vidu S1 позволяет цифровым пользователям перейти от «голосового управления ртом» к «голосовому управлению поведением». В отличие от традиционных цифровых пользователей, которые полагаются на «управляемый звуком тип рта + библиотеку предустановленных действий», Vidu S1 использует технологию генерации видео в реальном времени: он преобразует голос из аудиосигнала, который управляет типом рта, в инструкции в реальном времени, управляющие визуальным поведением персонажа.

Модель может не только генерировать форму рта, синхронизированную с голосом, но и понимать семантику, намерения и эмоции. Она генерирует соответствующие выражения лица, движения глаз, жесты, позы и телодвижения в режиме реального времени. Благодаря этому цифровые люди эволюционируют от «говорящих виртуальных образов» до генеративных персонажей, которые могут понимать пользователей, мгновенно реагировать и постоянно взаимодействовать с ними.

Время генерации не ограничено и осуществляется в режиме реального времени, что позволяет видео развиваться в процессе взаимодействия. Традиционные модели генерации видео обычно создают видео фиксированной продолжительности — от 3 до 30 секунд за один раз. В процессе создания видео пользователям сложно добавлять новые инструкции и изменять последующий кадр в режиме реального времени.

Vidu S1 использует метод авторегрессионной диффузии (AR + Diffusion). Он уже не генерирует полное видео сразу, а на основе уже созданной «исторической картины» в сочетании с текущими голосовыми командами и контекстом диалога непрерывно прогнозирует и создаёт последующий контент. Когда пользователь отдаёт новую голосовую команду, модель может понимать и корректировать выражение лица персонажа, его движения и направление съёмки в режиме реального времени. Так видео переходит от заранее определённого фиксированного контента к интерактивному процессу непрерывной генерации, реакции в реальном времени и динамической эволюции.

Vidu S1 не только обеспечивает интерактивную генерацию видео в режиме реального времени, но и впервые реализует неограниченную генерацию видео в реальном времени. Даже если видео генерируется непрерывно в течение нескольких часов, изображение остаётся стабильным — оно не смещается и не разрушается. Для долгосрочного непрерывного взаимодействия недостаточно просто непрерывно генерировать контент. Модель должна также поддерживать стабильность личности персонажа и естественную согласованность его действий в течение длительного времени, а также иметь возможность непрерывно получать и реагировать на инструкции пользователя в режиме реального времени. Vidu S1 способен поддерживать стабильный образ персонажа и естественную согласованность его действий при длительной генерации, а также продолжать получать и реагировать на голосовые команды пользователя в режиме реального времени. Тем самым он играет ведущую роль в реализации генеративного видеовзаимодействия в течение неограниченного периода времени.

С Vidu S1 не нужно моделировать и обучать индивидуальные роли — интерактивные роли можно создавать в режиме реального времени на основе одной фотографии. Для создания традиционных цифровых персонажей обычно требуется загрузить несколько фотографий или видеоматериалов, а затем выполнить моделирование, привязку персонажа, адаптацию формы рта и индивидуальное обучение — такой цикл производства занимает много времени. Vidu S1 применяет чисто генеративный технический подход — он устраняет необходимость в автономном моделировании и обучении для каждой роли. Пользователям достаточно загрузить исходную фотографию, и модель сможет понять личность, внешний вид и визуальный стиль персонажа, а также воспроизвести форму рта, выражение лица, движения и позу тела персонажа в режиме реального времени. Независимо от того, идёт ли речь о реальном человеке, персонаже аниме или милом домашнем животном, его можно быстро преобразовать в генеративного персонажа, способного взаимодействовать в режиме реального времени.

При этом Vidu S1 поддерживает настраиваемый тембр — это позволяет добиться единства визуального образа и звуковой идентичности. Метод создания цифровых персонажей изменился: вместо «ожидания обучения после загрузки материалов» появилось «прямое взаимодействие после загрузки изображений». Это существенно снижает порог для создания персонализированных персонажей в режиме реального времени.

Взаимодействие в режиме реального времени с разрешением 540p и частотой 25 кадров в секунду создаёт эффект видеозвонка. Для такого взаимодействия требуется не только потоковая передача модели, но и формирование разрешения и частоты кадров в реальном времени. Vidu S1 ориентирован на интерактивные сценарии в реальном времени: он совместно оптимизирует ускорение моделирования, механизм логического вывода и стратегии кластерного развёртывания, чтобы создавать видео в реальном времени с разрешением высокой чёткости 540p (960×540) и плавной частотой кадров 25 кадров в секунду (до 42 кадров в секунду).

Что касается модели, то платформа ускорения логического вывода Vidu S1 TurboDiffusion [1], основанная на технологии Shengdu Technology, использует такие технологии оптимизации логического вывода, как генерация с малым шагом, SageAttention с низким уровнем внимания [2], SLA с ограниченным вниманием [3] и SpargeAttention [4]. Это позволяет значительно снизить вычислительные затраты, необходимые для одиночного анализа и генерации кадров. На видеокартах потребительского класса можно добиться разрешения 540P и скорости 25 кадров в секунду (до 42 кадров в секунду) в режиме реального времени.

Что касается системы, Vidu S1 основан на механизме развёртывания логического вывода TurboServe [5] от Shengshu Technology — он обеспечивает эффективное планирование запросов на логический вывод. Система непрерывно записывает вводимые пользователем данные, статус роли и хронологические экраны, а также динамически распределяет вычислительные ресурсы в зависимости от статуса взаимодействия.

Благодаря совместной оптимизации модельных решений и потоковых сервисов Vidu S1 совершил ключевой скачок от «более быстрой генерации видео» к «непрерывному онлайн‑просмотру видео, стабильному выходу и отклику в режиме реального времени». Разрешение 540P и 25 кадров в секунду (поддерживается до 42 кадров в секунду) — это не только показатели качества изображения и частоты кадров, но и начало создания видео в реальном времени. У этой технологии есть техническая основа для таких сцен, как видеозвонки, интерактивные прямые трансляции, общение в реальном времени, интерактивные игры и XR.

С непрерывным развитием крупномасштабных видеомоделей отраслевая конкуренция переходит от единоличного соревнования по таким параметрам, как качество изображения, продолжительность и скорость, к системному соревнованию в режиме реального времени — по управляемости и интерактивности.

С выходом Vidu S1 видео перестало быть просто фиксированным контентом, который предварительно генерируется и просматривается в автономном режиме. Теперь это интерактивный носитель: он может понимать инструкции, реагировать в режиме реального времени и продолжать развиваться.

В будущем Vidu S1 может широко использоваться в таких сценариях, как эмоциональное общение с искусственным интеллектом, виртуальные кумиры с искусственным интеллектом, интерактивные прямые трансляции, игровые NPC, цифровые персонажи брендов, интеллектуальное обслуживание клиентов, онлайн‑образование и XR. Платформа будет способствовать превращению цифровых персонажей из разовых ресурсов контента в долгосрочные онлайн‑ресурсы и непрерывные интерактивные интеллектуальные порталы.

От создания видео до создания персонажа, который может продолжать взаимодействовать; от вывода контента в автономном режиме до двусторонней связи в режиме реального времени — Vidu S1 ещё больше расширил возможности крупных видеомоделей и способствовал созданию видео с использованием искусственного интеллекта. Это привело к новой эре взаимодействия в режиме реального времени.

Vidu S1 открыл закрытое бета‑тестирование: пользователи могут настраивать исходный образ и проводить интерактивную работу в режиме реального времени.

Адрес онлайн‑тестирования: https://www.vidu.cn/vidu-streamapi

Тестовый адрес: https://platform.vidu.cn/live/landing

Способ тестирования в APP: найдите «Vidu AI Pro» в магазине мобильных приложений, чтобы загрузить последнюю версию, откройте приложение и нажмите «Vidu S1», чтобы испытать.

[1] Турбодиффузия: ускорение моделей распространения видео в 100–200 раз.
[2] SageAttention: точное 8‑разрядное значение attention для ускорения логического вывода по принципу «подключи и играй».
[3] SLA: выход за рамки разреженности в диффузионных трансформаторах благодаря тонкой настройке разреженно‑линейного внимания.
[4] Разреженное внимание: точное и не требующее тренировки разреженное внимание, ускоряющее вывод любой модели.
[5] TurboServe: эффективное и экономичное обслуживание генерации потокового видео.

Виду S1
Технология Шэншу
Видео большой модели

Компания Shengshu Technology завершила финансирование серии В в размере почти 2 миллиардов юаней и приложила усилия для развития всего мира…

Компания Shengdu Technology — первая в Китае, вторая в мире и лидер в производстве больших моделей для видеосъёмки — завершила свою работу…

Доступна бесплатная версия Banana2, а компания Vidu выпустила линейку необработанных фотографий Q2 family — она будет доступна без ограничений в течение ограниченного времени…

U-ViT, который появился на два месяца раньше, чем архитектура Sora DiT, был разработан китайской AIG…

Сяоци
редактор
Отправить личное сообщение

Популярные статьи месяца

Сверхпрочный корпус для прогулок по дикой природе: Сяо Кай из компании Ling Strontium Intelligence был приглашён выступить с основным докладом на ICRA 2026, чтобы определить новый уровень автономии в дикой природе.

На Европейском саммите по науке и технологиям Vision объявила о плане миссии Gobi, направленном на использование энергетических систем искусственного интеллекта для превращения глобального Гоби в колыбель следующего поколения разумной цивилизации.

Magic Atom объединяет усилия с Anxing Energy и Jingchi Intelligence, чтобы ускорить «последний километр» приземления робота.

Робот Kunlun Xing, «стартап‑суперзвезда», официально появился на свет.

На выставке Magic Atom представит крупногабаритную модель VLA K02, завершающую переход физического интеллекта от «исполнения» к «пониманию».

Последняя статья

Почему Google не может хорошо заниматься «программированием на основе искусственного интеллекта»?

Во‑первых, эффективность — это главное: человекоподобные роботы NAVIAI лидируют в различных областях применения!

Независимая переменная выпустила X‑Tokenizer — кросс‑модальный инструмент для разделения слов‑действий. Он на 13,5 % повышает способность к мультимодальному согласованию и на 8,25 % увеличивает производительность при выполнении задач на большие расстояния.

Компания Yingzhi XBOT выпустила универсальную матрицу роботов для обслуживания общественного питания и интеллектуальную систему «с одним мозгом и несколькими формами».

От создания до поставки аудио‑ и видеорегистратор должен иметь комплект для разработки производственного уровня.

Как должны развиваться мобильные сети с появлением физического искусственного интеллекта?

Популярные поисковые запросы:

Умный город
Китайская академия наук
Новые энергетические транспортные средства
Дополненная реальность
Умные очки
Разжигать огонь
Weibo показал
qq
Общий велосипед
Карта Гаоде
Лю Цяньдун