SOLAR: новый способ устранить языковые расхождения в ИИ-моделях
SOLAR — метод выравнивания представлений токенов в многоязычных моделях, повышающий согласованность ответов на разных языках и точность анализа.
16 статьи по теме
SOLAR — метод выравнивания представлений токенов в многоязычных моделях, повышающий согласованность ответов на разных языках и точность анализа.
Создан тест MKG-RAG-Bench для оценки работы систем RAG с мультимодальными графами знаний; поможет совершенствовать ИИ-решения.
Авторы представили систематический обзор объединения зрительного восприятия и языкового мышления в MLLM, ввели пятиэтапную таксономию и обозначили перспективы создания унифицированного мультимодального интеллекта.
Разработан метод создания диалоговых ИИ‑систем для языков с ограниченными ресурсами на базе WordNet: преобразовали Hindi WordNet в 1,25 млн пар «инструкция‑ответ», настроили языковую модель — эффективность достигла 91,0.
Создан мультимодальный фреймворк NEST-V1: он превращает непальские слова в жесты аватаров с учётом эмоций. Точность распознавания речи — 81,1%, эмоций — 79,21%.
Разработана мультимодальная модель для обнаружения метановых шлейфов на спутниковых снимках: она эффективнее аналогов и требует меньше ресурсов.
DinoLink — платформа для сжатия данных в системах V2X: снижает объём передаваемой информации в 139 раз, сохраняет качество данных, ускоряет работу в узкополосных средах.
Исследование выявило пробелы в оценке мультимодальных ИИ-моделей (MLLM): нынешние методы не показывают, как модели объединяют данные из разных источников (текст, фото, аудио и др.).
Apple представила третье поколение моделей Apple Foundation Models — семейство из пяти моделей для устройств и облачных вычислений. В него входят встроенные и серверные модели с мультимодальными возможностями. Архитектура моделей позволяет преодолевать ограничения по объёму памяти и обеспечивать конфиденциальность данных.
Система COrigami на базе ИИ создаёт шаблоны оригами по текстовому описанию, объединяя алгоритмическую оптимизацию и эстетическую оценку — помощник для художников в проектировании сложных форм.
На Google I/O 2026 компания представила новые модели ИИ (Gemini Omni, Gemini 3.5 Flash), информационных агентов в поиске, обновлённый интерфейс Gemini (Neural Expressive), персонального ИИ‑агента Gemini Spark и другие разработки. Среди новинок — ежедневная сводка в приложении Gemini, универсальная корзина покупок и интеллектуальные очки для Android XR.
На Google I/O 2026 представили модели Gemini Omni и семейство Gemini 3.5. Gemini Omni позволяет создавать и редактировать видео, комбинируя разные типы данных. Версия 3.5 Flash отличается высокой производительностью и подходит для сложных задач — её интегрировали в приложение Gemini и поиск. Также появился персональный агент Gemini Spark.
На выставке Google I/O 2026 продемонстрировали, как можно использовать ИИ для реализации творческих и технических проектов. С помощью различных моделей (Gemini, Nano Banana, Lyria 3 Pro и других) создали фильм, разработали визуальный стиль бренда, запустили музыкальное шоу и видеоигру, разработали приложение для заказа кофе и многое другое. Проекты объединили человеческое творчество и возможности искусственного интеллекта.
В Лаборатории будущего под руководством Google и Университета Ватерлоо студенты разрабатывают ИИ-прототипы для образования. Среди проектов — приложение для изучения японского языка, инструмент для освоения языка жестов и система для тренировок по художественной гимнастике. Инициатива помогает учащимся создавать технологии будущего.
DocArena — система для создания обучающих сред из документов для агентов поиска; включает набор данных DocArena-79K и инфраструктуру Doc-Search agent; показывает высокие результаты в поиске и контроле качества.
Figma на конференции Config представила новые инструменты для разработки и кодирования с использованием ИИ. Среди них — слои кода, графические эффекты движения, инструменты для работы с шейдерами и рабочие процессы Figma Weave. Также компания обновила средства для совместной работы команд и агентов.