Интеллектуализация аудио- и видеосигнала только начинается. Раньше редакторам приходилось вручную искать и нарезать яркие моменты с футбольных матчей: находить голы, празднования, замедленные повторы, добавлять субтитры и распространять контент на разных платформах. Теперь искусственный интеллект способен в реальном времени отслеживать прямую трансляцию, распознавать ключевые сигналы (переключение объектива, изменение звука, поздравления игроков, свистки судей и т. д.) и быстро выделять клипы для создания фрагментов, готовых к распространению.
Ханг Менгю, руководитель разработки платформы Volcano Engine AI Media Platform, на подфоруме Intelligent video cloud в рамках летней конференции FORCE Driving Force 2026 отметил, что от «создания изображения» до «создания готового фильма для интернета» предстоит ещё много работы по обработке аудио и видео. Для этого нужен AI MediaKit — набор для разработки аудио- и видеоконтента, ориентированный на агентов. Он объединяет возможности понимания видео, редактирования, добавления субтитров, улучшения качества изображения, транскодирования, обработки звука и изображений в единую инструментальную базу, которую агент может использовать для создания контента от понимания до доставки.
AI MediaKit поддерживает более 100 базовых функций, охватывающих видео, изображения, аудио, редактирование и другие производственные связи. Его ценность — в том, что он разбивает сложные профессиональные действия на отдельные элементы, которые агенты могут вызывать, комбинировать и получать по ним обратную связь. Например, с его помощью можно сначала изучить идеи с высокой степенью параллелизма и низкими техническими требованиями на этапе генерации, затем отфильтровать и упорядочить их в центре принятия решений агента, а после использовать AI MediaKit для подготовки материала к доставке на платформу.
В сценариях производства высокочастотного контента (пародии, реклама, игровые материалы, устные видеоролики и комические драмы) AI MediaKit позволяет команде протестировать больше идей при тех же затратах и сосредоточить вычислительные мощности на готовых фильмах, которые действительно принесут пользу. Результаты доставки должны соответствовать трём пороговым значениям: понимания, обработки и доставки.
Первый порог — понимание: отправная точка видеопроизводства меняется с «люди сначала заканчивают просмотр материала» на «система сначала структурирует материал». Агент совместно с AI MediaKit использует мультимодальные возможности (распознавание речи, текста и понимание видео) для анализа прямой трансляции в реальном времени. Например, когда забивается гол, система распознаёт различные сигналы (переключение объектива, изменение цвета экрана, поздравление игрока, свисток судьи, изменение громкости комментариев и т. д.), чтобы определить самый яркий момент. По данным Volcano Engine, в сценариях понимания видео AI MediaKit может сэкономить до 60% использования токенов и снизить затраты до 40%.
Второй порог — обработка: меняется подход к созданию контента — от «кто будет управлять программным обеспечением по очереди» к «кто сможет более чётко определять задачи и пересматривать стандарты». Агент после ознакомления с содержанием приступает к производственным действиям: монтажу, обработке субтитров, улучшению изображения, насыщению звука, объединению клипов в единое видео. Ханг Менгю продемонстрировала процесс совместной работы Codex и MediaKit: она сформулировала требования в одном предложении и предложила объединить два видеоролика. Первое видео и аудио воспроизводятся по всему тексту, а в месте соединения добавляется информация о продукте AI MediaKit. Затем Codex понимает требования, создаёт стратегию редактирования и одновременно представляет панель просмотра — пользователи могут дважды точно настроить и подтвердить стратегию, а затем экспортировать видео целиком.
Третий порог — доставка: чтобы видео вышло в интернет, оно должно соответствовать требованиям разных платформ, терминалов и сцен просмотра (реклама в соцсетях, короткие видеоплатформы, прямые трансляции на больших экранах, контент кино- и телевизионного уровня). AI MediaKit позволяет повысить качество изображения с помощью механизма распознавания видеоконтента, интеллектуального разделения видео, вставки кадров, уменьшения шума, устранения размытия и других операций — при этом сохраняется оригинальный художественный стиль модели, а высокочастотные детали восстанавливаются. По данным Volcano Engine, при том же качестве изображения эта ссылка может снизить затраты на 50–80%.
Цель AI MediaKit — интегрировать аудио- и видеовозможности, которые Volcano накопил за последние годы, в единую базу, позволяющую агенту подключать и использовать инструменты. AI MediaKit предоставляет множество форм доступа (API/CLI/Skill/MCP) и унифицированным образом открывает эти возможности разработчикам, снижая порог разработки агентов. Например, агент по редактированию устных трансляций может напрямую использовать возможности AI MediaKit для понимания и редактирования аудио и видео — приостанавливать трансляцию, исправлять ошибки, добавлять субтитры и синтезировать видео. Агент по контенту для электронной коммерции брендов может построить рабочий процесс на основе элементарных возможностей создания, просмотра, улучшения и доставки материалов.
Концепция «подключи и играй» меняет возможности разработчиков — с инструментов на инфраструктуру. Им не нужно разбираться в каждом профессиональном звене обработки, достаточно определить задачи в соответствии с бизнес-сценариями, и агент вызовет базовые возможности для выполнения работы. В будущем сложность разработки будет заключаться не в подключении множества профессиональных возможностей, а в определении сцены, понимании требований пользователей и разработке рабочего процесса. Концепция также позволяет разным агентам многократно вызывать один и тот же набор аудио- и видеовозможностей, выводя конкуренцию на более глубокий уровень.