HiDream-O1-Image: инновации в архитектуре UiT и неоднозначные результаты

В мае 2026 года компания Zhixiang Future опубликовала исходный код графической модели Wensheng HiDream-O1-Image (8B). Модель превзошла другие модели с открытым исходным кодом для искусственного анализа, в том числе Qwen Image (27B) и FLUX.2, набрав 1187 баллов по шкале Elo. Однако отзывы о модели оказались неоднозначными: одни пользователи высоко оценили её, другие раскритиковали качество генерации изображений.

Ключевое новшество HiDream-O1-Image — архитектура UiT. В отличие от предыдущих моделей Wensheng, где использовались отдельные модули (VAE для сжатия изображения, T5/CLIP для понимания текста, DiT для генерации), UiT сопоставляет все пиксели, текст и условия задачи с одним пространством токенов. Это позволяет снизить потери информации и повысить эффективность обработки данных.

Тестирование показало, что в некоторых сценариях HiDream-O1-Image достигает производительности моделей с 27 млрд параметров, работая при этом с 8 млрд параметров. Например, при создании плаката для акции 618 модель корректно отобразила разные пропорции изображений (3:4, 16:9, 9:16) и точно передала текстовые элементы. В тесте на создание комикса модель сохранила визуальные элементы персонажа (например, красный шарф) на разных кадрах. В задании по визуализации круговорота воды четыре из пяти результатов оказались точными.

Тем не менее у модели есть серьёзные ограничения. Она плохо понимает контекст: в тестах с комиксами и рекламными плакатами требовалось вручную добавлять диалоги или коммерческие элементы. В генерации уличных пейзажей (например, кафе в Париже или аркады в Гуанчжоу) модель иногда смешивала архитектурные стили разных регионов и генерировала «псевдотекст» — последовательности символов, которые выглядят как текст, но лишены смысла. При создании интерфейса фитнес-приложения наблюдались сбои в работе с текстом (разные варианты написания «ккал» на одной странице, нарушение вёрстки).

Ещё одна проблема — недостаточная зрелость экосистемы. Хотя ComfyUI уже поддерживает модель, а на Reddit собрано более 100 положительных отзывов, инструменты тонкой настройки (LoRa, ControlNet) и интеграция с существующими экосистемами (например, Stable Diffusion 3.5) пока развиты слабо. На GitHub за две недели модель набрала 443 звезды, 26 форков и 6 открытых выпусков — для нового проекта с открытым исходным кодом это неплохой результат, но до уровня GPT Image 2 ещё далеко.

Главная ценность HiDream-O1-Image — подтверждение жизнеспособности архитектуры UiT. Она показывает перспективное направление развития графических моделей: использование единого пространства токенов для повышения эффективности. Следующий шаг — выпуск Pro-версии с параметрами 200B+, которая сможет реально конкурировать с закрытыми моделями вроде GPT Image 2.