Большие языковые модели: в чём их ключевое преимущество?
Разработана платформа AdvCluster для анализа преимуществ крупных языковых моделей; доказано, что они эффективнее работают с ограничениями в логических задачах.
93 статьи по теме
Разработана платформа AdvCluster для анализа преимуществ крупных языковых моделей; доказано, что они эффективнее работают с ограничениями в логических задачах.
Создан мультимодальный фреймворк NEST-V1: он превращает непальские слова в жесты аватаров с учётом эмоций. Точность распознавания речи — 81,1%, эмоций — 79,21%.
Dynamic-dLLM ускоряет работу диффузионных LLM более чем в 3 раза за счёт динамического обновления кэша и адаптивного декодирования. Протестировано на LLaDA и Dream, в системах MMLU, GSM8K, HumanEval.
Исследование показало, как разные стили текста влияют на позицию языковой модели Llama‑3.2‑1B в вопросах защиты животных. Чёткая аргументация усиливает поддержку, сдержанный стиль — ослабляет.
PhyEditBench — тест для оценки физического понимания моделей редактирования изображений. Включает 238 реальных и 35 синтетических примеров. Представлена программа PhyWorld, превосходящая аналоги.
Разработан метод снижения эскалации конфликтов в диалогах с LLM за счёт подсказок на основе принципов ненасильственного общения (NVC).
Дерек Томас разработал ContextForge — систему для эффективного использования контекста в долгих диалогах с LLM. Она экономит токены и сохраняет качество ответов.
ForeAgent — система для выявления поддельных ИИ‑изображений, которая постоянно учится и показывает высокую точность в тестах (до 93,3%)
CRISP — метод оценки визуально‑пространственного интеллекта ИИ с помощью 3D‑графиков и протокола oracle, позволяющий отделить логическое мышление от проблем восприятия.
Разработана сеть FFN для обработки многочасовых видеороликов: модель адаптируется, работая всего с тремя кадрами, и использует новую метрику для оптимизации обработки. Создан датасет EpicTours (до 3 часов).
Система VIGIL улучшает связь между текстом и изображениями в мультимодальных ИИ-моделях, снижая число ошибок и галлюцинаций. Требует меньше данных, чем аналоги.
APRTrack — система для надёжного отслеживания объектов в сложных условиях (при искажениях и неполных данных), проверена на нескольких датасетах.
Разработана мультимодальная модель для обнаружения метановых шлейфов на спутниковых снимках: она эффективнее аналогов и требует меньше ресурсов.
Система изучает 3D‑физику по видео: переводит анализ из 2D в 3D, моделирует поведение объектов с учётом физических законов, успешно прошла тесты.
DinoLink — платформа для сжатия данных в системах V2X: снижает объём передаваемой информации в 139 раз, сохраняет качество данных, ускоряет работу в узкополосных средах.
Аудит тестов на Deepfake показал, что они могут не отражать реальные угрозы — универсальные модели приближаются по эффективности к специализированным детекторам.
Создан набор данных TUB и метрика PCD для оценки потери информации в мутной подводной среде — это улучшит работу моделей компьютерного зрения.
GeMoE — метод адаптивной маршрутизации для моделей VisionLanguage на базе MoE: повышает эффективность использования ресурсов, сохраняя производительность и увеличивая частоту активации экспертов.
Разработан метод гибридного слияния данных для настройки моделей зрения, который эффективнее прежних подходов — протестирован на 34 наборах данных, показывает лучшее соотношение точности и задержки.
Новая нейросеть с высокой точностью прогнозирует параметры лазерной сварки, анализируя изображения сварочной ванны и параметры процесса. Точность прогнозирования состояния проплавления — 99,35%.