Учёные разработали способ автоматически извлекать лексическую информацию из машиночитаемой версии арабско‑английского словаря Al‑Mawrid. Для этого они использовали n‑граммовый анализ, анализ ключевых слов в контексте (KWIC), а также правила и эвристические методы — например, чтобы находить синонимы. В ходе исследования удалось добиться высокой точности при извлечении разных типов данных: от морфологической и синтаксической информации до семантических связей (например, отношений гипоним/гиперним) и синонимов. Оказалось, что в словаре много производных слов и синонимов, а также доменных меток.
arXiv cs.CL
·
·
~1 мин
Новый метод извлекает знания из арабско‑английского словаря
Разработан метод автоматического извлечения лексической информации из словаря Al‑Mawrid с помощью n‑граммового анализа, KWIC и правил; показана высокая точность извлечения разных типов данных.
// оригинал
arXiv cs.CL
↗ Читать оригинал
9 просмотров
// похожие статьи