Deep Digest — AI на русском

Vision

26 статьи по теме

arXiv cs.CV 27 Jun 2026

Новый метод подбора 3D-форм: от грубого эскиза к точной модели

Разработан гибридный метод подбора нежёстких 3D-форм «от грубого к точному», демонстрирующий высокую эффективность в сложных условиях.

Vision Research

читать → 0 просмотра

arXiv cs.LG 27 Jun 2026

ИИ раскрывает секреты полярного сияния: как модель «видит» атмосферу

Учёные выяснили, как ИИ-модель анализирует полярное сияние: она учитывает сезонные циклы и трёхмерную структуру штормов, самостоятельно выявляя метеорологические закономерности.

Research LLM Vision

читать → 0 просмотра

arXiv cs.CV 26 Jun 2026

PhyEditBench: новый тест для проверки «физического мышления» моделей редактирования фото

PhyEditBench — тест для оценки физического понимания моделей редактирования изображений. Включает 238 реальных и 35 синтетических примеров. Представлена программа PhyWorld, превосходящая аналоги.

Vision Research

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

ForeAgent: агент, который учится распознавать поддельные ИИ‑изображения

ForeAgent — система для выявления поддельных ИИ‑изображений, которая постоянно учится и показывает высокую точность в тестах (до 93,3%)

Vision LLM Research

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

CRISP: новый способ проверить, насколько ИИ понимает пространство и образы

CRISP — метод оценки визуально‑пространственного интеллекта ИИ с помощью 3D‑графиков и протокола oracle, позволяющий отделить логическое мышление от проблем восприятия.

Vision LLM Research

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

Новый метод создаёт длинные видеоролики: забывание и адаптация в деле

Разработана сеть FFN для обработки многочасовых видеороликов: модель адаптируется, работая всего с тремя кадрами, и использует новую метрику для оптимизации обработки. Создан датасет EpicTours (до 3 часов).

Vision Research

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

Новый метод борьбы с ошибками в мультимодальных ИИ-моделях

Система VIGIL улучшает связь между текстом и изображениями в мультимодальных ИИ-моделях, снижая число ошибок и галлюцинаций. Требует меньше данных, чем аналоги.

LLM Vision Research

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

Новый метод отслеживания объектов: APRTrack справляется с искажениями в реальном мире

APRTrack — система для надёжного отслеживания объектов в сложных условиях (при искажениях и неполных данных), проверена на нескольких датасетах.

Vision Research

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

Новый метод найдёт метановые шлейфы на спутниковых снимках

Разработана мультимодальная модель для обнаружения метановых шлейфов на спутниковых снимках: она эффективнее аналогов и требует меньше ресурсов.

Vision Multimodal Research

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

Новый метод изучает 3D‑физику по видео: прорыв в компьютерном зрении

Система изучает 3D‑физику по видео: переводит анализ из 2D в 3D, моделирует поведение объектов с учётом физических законов, успешно прошла тесты.

Vision Research

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

DinoLink: в 139 раз меньше данных — новое решение для связи автомобиля с инфраструктурой

DinoLink — платформа для сжатия данных в системах V2X: снижает объём передаваемой информации в 139 раз, сохраняет качество данных, ускоряет работу в узкополосных средах.

Vision Research Multimodal

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

Тесты на Deepfake: почему они могут вводить в заблуждение?

Аудит тестов на Deepfake показал, что они могут не отражать реальные угрозы — универсальные модели приближаются по эффективности к специализированным детекторам.

Vision Research Safety

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

Новый набор данных и метрика помогут улучшить зрение подводных роботов

Создан набор данных TUB и метрика PCD для оценки потери информации в мутной подводной среде — это улучшит работу моделей компьютерного зрения.

Vision Research

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

GeMoE: новый способ оптимизировать работу больших моделей VisionLanguage

GeMoE — метод адаптивной маршрутизации для моделей VisionLanguage на базе MoE: повышает эффективность использования ресурсов, сохраняя производительность и увеличивая частоту активации экспертов.

LLM Vision Research

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

Новый метод настройки визуальных моделей: гибридное слияние данных даёт лучший результат

Разработан метод гибридного слияния данных для настройки моделей зрения, который эффективнее прежних подходов — протестирован на 34 наборах данных, показывает лучшее соотношение точности и задержки.

Vision Research

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

Нейросеть предскажет качество лазерной сварки: точность до 99,35%

Новая нейросеть с высокой точностью прогнозирует параметры лазерной сварки, анализируя изображения сварочной ванны и параметры процесса. Точность прогнозирования состояния проплавления — 99,35%.

Research Vision

читать → 1 просмотр

arXiv cs.CV 26 Jun 2026

Новый подход к анализу когнитивных задач с помощью МРТ: от «один к одному» к «многие к одному»

Разработан метод анализа когнитивных задач через МРТ: от переноса данных «один к одному» к анализу связей «многие к одному» с применением BIP и 1127 моделей.

Research Vision

читать → 1 просмотр

arXiv cs.LG 26 Jun 2026

Новый метод раскроет, какие данные использовали для обучения ИИ

Предложен метод оценки доли данных, использованных для обучения ИИ-модели, без сложных дополнительных моделей и скрытых данных. Протестирован на моделях генерации изображений.

Research LLM Vision

читать → 1 просмотр

arXiv cs.LG 26 Jun 2026

Fast-LeWM: новая модель ускорит планирование действий в визуальных системах

Fast-LeWM ускоряет планирование действий в визуальных системах и снижает накопление ошибок по сравнению с LeWM.

Vision Research LLM

читать → 1 просмотр

arXiv cs.LG 26 Jun 2026

Топологический анализ поможет быстрее находить наводнения по спутниковым снимкам

Разработан метод обнаружения наводнений с помощью топологического анализа спутниковых снимков — он даёт более понятные и надёжные результаты по сравнению с прежними моделями.

Vision Research

читать → 1 просмотр