DeepDigest
arXiv cs.CV · · ~1 мин

DocArena: как превратить документы в обучающую среду для поисковых агентов

DocArena — система для создания обучающих сред из документов для агентов поиска; включает набор данных DocArena-79K и инфраструктуру Doc-Search agent; показывает высокие результаты в поиске и контроле качества.

DocArena: как превратить документы в обучающую среду для поисковых агентов

Авторы предложили систему DocArena — автоматизированный конвейер, который превращает необработанные коллекции документов в обучающие среды для агентов по поиску документов. Система использует визуальное восприятие на основе MLLM, чтобы структурировать и индексировать документы, а также выполняет операции по обеспечению качества данных. В рамках проекта создан набор данных DocArena-79K — он включает пары контроля качества из 8336 документов на 49 языках и в 16 доменах. Кроме того, разработана инфраструктура агента Doc-Search agent: она отделяет визуальное восприятие от модели политики, позволяя текстовым LLMS участвовать в мультимодальном поиске. Эксперименты показали, что агенты, обученные на данных DocArena, лучше ищут информацию и контролируют качество данных.

Источник: arXiv cs.CV
2 просмотров
// поделиться Telegram VK
// комментарии