DeepDigest
← все статьи
Multimodal

Multimodal

16 статьи по теме

arXiv cs.CL

Новый взгляд на взаимодействие зрения и языка в ИИ: систематизированный обзор мультимодальных моделей

Авторы представили систематический обзор объединения зрительного восприятия и языкового мышления в MLLM, ввели пятиэтапную таксономию и обозначили перспективы создания унифицированного мультимодального интеллекта.

читать → 1 просмотр
arXiv cs.CL

ИИ для языков с ограниченными ресурсами: новый подход на основе WordNet

Разработан метод создания диалоговых ИИ‑систем для языков с ограниченными ресурсами на базе WordNet: преобразовали Hindi WordNet в 1,25 млн пар «инструкция‑ответ», настроили языковую модель — эффективность достигла 91,0.

читать → 1 просмотр
arXiv cs.CL

Эмоциональные аватары на языке жестов: новый способ общения на непальском

Создан мультимодальный фреймворк NEST-V1: он превращает непальские слова в жесты аватаров с учётом эмоций. Точность распознавания речи — 81,1%, эмоций — 79,21%.

читать → 1 просмотр
arXiv cs.CV

DinoLink: в 139 раз меньше данных — новое решение для связи автомобиля с инфраструктурой

DinoLink — платформа для сжатия данных в системах V2X: снижает объём передаваемой информации в 139 раз, сохраняет качество данных, ускоряет работу в узкополосных средах.

читать → 1 просмотр
arXiv cs.AI

Пробелы в оценке мультимодальных ИИ: что мешает оценить реальные возможности моделей?

Исследование выявило пробелы в оценке мультимодальных ИИ-моделей (MLLM): нынешние методы не показывают, как модели объединяют данные из разных источников (текст, фото, аудио и др.).

читать → 1 просмотр

Apple представила третье поколение моделей Apple Foundation Models

Apple представила третье поколение моделей Apple Foundation Models — семейство из пяти моделей для устройств и облачных вычислений. В него входят встроенные и серверные модели с мультимодальными возможностями. Архитектура моделей позволяет преодолевать ограничения по объёму памяти и обеспечивать конфиденциальность данных.

читать → 1 просмотр
arXiv cs.AI

COrigami: ИИ поможет создать узнаваемое оригами

Система COrigami на базе ИИ создаёт шаблоны оригами по текстовому описанию, объединяя алгоритмическую оптимизацию и эстетическую оценку — помощник для художников в проектировании сложных форм.

читать → 1 просмотр
Google AI Blog

Google I/O 2026: главные новинки — от Gemini до интеллектуальных очков

На Google I/O 2026 компания представила новые модели ИИ (Gemini Omni, Gemini 3.5 Flash), информационных агентов в поиске, обновлённый интерфейс Gemini (Neural Expressive), персонального ИИ‑агента Gemini Spark и другие разработки. Среди новинок — ежедневная сводка в приложении Gemini, универсальная корзина покупок и интеллектуальные очки для Android XR.

читать → 1 просмотр
Google AI Blog

Gemini Omni и Gemini 3.5: 9 демонстраций возможностей

На Google I/O 2026 представили модели Gemini Omni и семейство Gemini 3.5. Gemini Omni позволяет создавать и редактировать видео, комбинируя разные типы данных. Версия 3.5 Flash отличается высокой производительностью и подходит для сложных задач — её интегрировали в приложение Gemini и поиск. Также появился персональный агент Gemini Spark.

читать → 1 просмотр
Google AI Blog

Использование Gemini для организации Google I/O 2026

На выставке Google I/O 2026 продемонстрировали, как можно использовать ИИ для реализации творческих и технических проектов. С помощью различных моделей (Gemini, Nano Banana, Lyria 3 Pro и других) создали фильм, разработали визуальный стиль бренда, запустили музыкальное шоу и видеоигру, разработали приложение для заказа кофе и многое другое. Проекты объединили человеческое творчество и возможности искусственного интеллекта.

читать → 1 просмотр
Google AI Blog

Прототипы ИИ от Google: обучение с помощью технологий

В Лаборатории будущего под руководством Google и Университета Ватерлоо студенты разрабатывают ИИ-прототипы для образования. Среди проектов — приложение для изучения японского языка, инструмент для освоения языка жестов и система для тренировок по художественной гимнастике. Инициатива помогает учащимся создавать технологии будущего.

читать → 1 просмотр
arXiv cs.CV

DocArena: как превратить документы в обучающую среду для поисковых агентов

DocArena — система для создания обучающих сред из документов для агентов поиска; включает набор данных DocArena-79K и инфраструктуру Doc-Search agent; показывает высокие результаты в поиске и контроле качества.

читать → 3 просмотра
The Verge AI

Figma представила инструменты с ИИ для анимационной графики и шейдеров

Figma на конференции Config представила новые инструменты для разработки и кодирования с использованием ИИ. Среди них — слои кода, графические эффекты движения, инструменты для работы с шейдерами и рабочие процессы Figma Weave. Также компания обновила средства для совместной работы команд и агентов.

читать → 4 просмотра