Новый метод извлекает задачи и методы из научных статей с повышенной точностью

Исследователи Инги Чжан и Чэнчжи Чжан разработали новый подход для извлечения из научных статей предложений, описывающих задачи и методы исследования. Проблема в том, что существующих наборов данных мало, и модели слишком зависят от определённых формулировок — из‑за этого они плохо обобщают информацию. Авторы предложили два решения: десенсибилизацию шаблонных выражений (чтобы уменьшить зависимость от конкретных форм) и контекстно-зависимый преобразователь (он учитывает контекст и выделяет важные слова, отсеивая шум). В экспериментах их модели показали рост макро-балла F1 на 3,71% и 2,67% по сравнению с базовыми моделями на двух наборах данных научных работ. При этом выяснилось, что методы контекстного обучения на базе больших языковых моделей (LLM) для этой задачи не подходят.