Deep Digest — AI на русском

Multimodal

16 статьи по теме

arXiv cs.CL 27 Jun 2026

SOLAR: новый способ устранить языковые расхождения в ИИ-моделях

SOLAR — метод выравнивания представлений токенов в многоязычных моделях, повышающий согласованность ответов на разных языках и точность анализа.

LLM Research Multimodal

читать → 0 просмотра

arXiv cs.AI 27 Jun 2026

MKG-RAG-Bench: новый тест для оценки мультимодального поиска в ИИ-системах

Создан тест MKG-RAG-Bench для оценки работы систем RAG с мультимодальными графами знаний; поможет совершенствовать ИИ-решения.

LLM Research Multimodal

читать → 0 просмотра

arXiv cs.CL 26 Jun 2026

Новый взгляд на взаимодействие зрения и языка в ИИ: систематизированный обзор мультимодальных моделей

Авторы представили систематический обзор объединения зрительного восприятия и языкового мышления в MLLM, ввели пятиэтапную таксономию и обозначили перспективы создания унифицированного мультимодального интеллекта.

LLM Multimodal Research

читать → 1 просмотр

arXiv cs.CL 26 Jun 2026

ИИ для языков с ограниченными ресурсами: новый подход на основе WordNet

Разработан метод создания диалоговых ИИ‑систем для языков с ограниченными ресурсами на базе WordNet: преобразовали Hindi WordNet в 1,25 млн пар «инструкция‑ответ», настроили языковую модель — эффективность достигла 91,0.

LLM Research Multimodal

читать → 1 просмотр

arXiv cs.CL 26 Jun 2026

Эмоциональные аватары на языке жестов: новый способ общения на непальском

Создан мультимодальный фреймворк NEST-V1: он превращает непальские слова в жесты аватаров с учётом эмоций. Точность распознавания речи — 81,1%, эмоций — 79,21%.

Multimodal Research LLM

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

Новый метод найдёт метановые шлейфы на спутниковых снимках

Разработана мультимодальная модель для обнаружения метановых шлейфов на спутниковых снимках: она эффективнее аналогов и требует меньше ресурсов.

Vision Multimodal Research

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

DinoLink: в 139 раз меньше данных — новое решение для связи автомобиля с инфраструктурой

DinoLink — платформа для сжатия данных в системах V2X: снижает объём передаваемой информации в 139 раз, сохраняет качество данных, ускоряет работу в узкополосных средах.

Vision Research Multimodal

читать → 1 просмотр

arXiv cs.AI 26 Jun 2026

Пробелы в оценке мультимодальных ИИ: что мешает оценить реальные возможности моделей?

Исследование выявило пробелы в оценке мультимодальных ИИ-моделей (MLLM): нынешние методы не показывают, как модели объединяют данные из разных источников (текст, фото, аудио и др.).

LLM Multimodal Research

читать → 1 просмотр

Apple Machine Learning 26 Jun 2026

Apple представила третье поколение моделей Apple Foundation Models

Apple представила третье поколение моделей Apple Foundation Models — семейство из пяти моделей для устройств и облачных вычислений. В него входят встроенные и серверные модели с мультимодальными возможностями. Архитектура моделей позволяет преодолевать ограничения по объёму памяти и обеспечивать конфиденциальность данных.

LLM Multimodal Research

читать → 1 просмотр

arXiv cs.AI 26 Jun 2026

COrigami: ИИ поможет создать узнаваемое оригами

Система COrigami на базе ИИ создаёт шаблоны оригами по текстовому описанию, объединяя алгоритмическую оптимизацию и эстетическую оценку — помощник для художников в проектировании сложных форм.

LLM Research Multimodal

читать → 1 просмотр

Google AI Blog 26 Jun 2026

Google I/O 2026: главные новинки — от Gemini до интеллектуальных очков

На Google I/O 2026 компания представила новые модели ИИ (Gemini Omni, Gemini 3.5 Flash), информационных агентов в поиске, обновлённый интерфейс Gemini (Neural Expressive), персонального ИИ‑агента Gemini Spark и другие разработки. Среди новинок — ежедневная сводка в приложении Gemini, универсальная корзина покупок и интеллектуальные очки для Android XR.

LLM Multimodal Agents

читать → 1 просмотр

Google AI Blog 26 Jun 2026

Gemini Omni и Gemini 3.5: 9 демонстраций возможностей

На Google I/O 2026 представили модели Gemini Omni и семейство Gemini 3.5. Gemini Omni позволяет создавать и редактировать видео, комбинируя разные типы данных. Версия 3.5 Flash отличается высокой производительностью и подходит для сложных задач — её интегрировали в приложение Gemini и поиск. Также появился персональный агент Gemini Spark.

LLM Multimodal Agents

читать → 1 просмотр

Google AI Blog 26 Jun 2026

Использование Gemini для организации Google I/O 2026

На выставке Google I/O 2026 продемонстрировали, как можно использовать ИИ для реализации творческих и технических проектов. С помощью различных моделей (Gemini, Nano Banana, Lyria 3 Pro и других) создали фильм, разработали визуальный стиль бренда, запустили музыкальное шоу и видеоигру, разработали приложение для заказа кофе и многое другое. Проекты объединили человеческое творчество и возможности искусственного интеллекта.

LLM Vision Multimodal

читать → 1 просмотр

Google AI Blog 26 Jun 2026

Прототипы ИИ от Google: обучение с помощью технологий

В Лаборатории будущего под руководством Google и Университета Ватерлоо студенты разрабатывают ИИ-прототипы для образования. Среди проектов — приложение для изучения японского языка, инструмент для освоения языка жестов и система для тренировок по художественной гимнастике. Инициатива помогает учащимся создавать технологии будущего.

LLM Multimodal Research

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

DocArena: как превратить документы в обучающую среду для поисковых агентов

DocArena — система для создания обучающих сред из документов для агентов поиска; включает набор данных DocArena-79K и инфраструктуру Doc-Search agent; показывает высокие результаты в поиске и контроле качества.

LLM Research Multimodal

читать → 3 просмотра

The Verge AI 26 Jun 2026

Figma представила инструменты с ИИ для анимационной графики и шейдеров

Figma на конференции Config представила новые инструменты для разработки и кодирования с использованием ИИ. Среди них — слои кода, графические эффекты движения, инструменты для работы с шейдерами и рабочие процессы Figma Weave. Также компания обновила средства для совместной работы команд и агентов.

LLM Multimodal Business

читать → 4 просмотра