Подзадача извлечения информации
Извлечение терминологии (также известное как извлечение терминов , извлечение глоссария , распознавание терминов или добыча терминологии ) является подзадачей извлечения информации . Целью извлечения терминологии является автоматическое извлечение соответствующих терминов из заданного корпуса . [1]
В эпоху семантической паутины все большее число сообществ и сетевых предприятий начали получать доступ и взаимодействовать через Интернет . Моделирование этих сообществ и их информационных потребностей важно для нескольких веб-приложений , таких как тематические веб-краулеры , [2] веб-сервисы , [3] рекомендательные системы , [4] и т. д. Развитие извлечения терминологии также имеет важное значение для языковой индустрии .
Одним из первых шагов к моделированию предметной области является сбор словаря терминов, относящихся к предметной области, составляющих лингвистическое поверхностное проявление концепций предметной области . В литературе описано несколько методов автоматического извлечения технических терминов из хранилищ документов, специфичных для предметной области. [5] [6] [7] [8] [9] [10] [11] [12 ] [ 13] [14] [15] [16] [17]
Обычно подходы к автоматическому извлечению терминов используют лингвистические процессоры ( тегирование частей речи , фрагментация фраз ) для извлечения терминологических кандидатов, т. е. синтаксически правдоподобных терминологических именных фраз . Существительные фразы включают в себя соединения (например, «кредитная карта»), адъективные именные фразы (например, «местный туристический информационный офис») и предложные именные фразы (например, «совет директоров»). В английском языке первые два (соединения и адъективные именные фразы) являются наиболее частыми. [18] Затем терминологические записи фильтруются из списка кандидатов с использованием статистических и машинных методов обучения . После фильтрации, из-за их низкой неоднозначности и высокой специфичности, эти термины особенно полезны для концептуализации области знаний или для поддержки создания онтологии области или терминологической базы. Кроме того, извлечение терминологии является очень полезной отправной точкой для семантического сходства , управления знаниями , человеческого перевода и машинного перевода и т. д.
Извлечение двуязычной терминологии
Методы извлечения терминологии могут быть применены к параллельным корпусам . В сочетании, например, со статистикой совместного появления , могут быть получены кандидаты на переводы терминов. [19] Двуязычная терминология может быть также извлечена из сопоставимых корпусов [20] (корпуса, содержащие тексты в пределах одного типа текста, домена, но не переводы документов между собой).
Смотрите также
Ссылки
- ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Неконтролируемое автоматическое извлечение ключевой фразы с использованием распространения сродства". Достижения в области вычислительных интеллектуальных систем . Достижения в области интеллектуальных систем и вычислений. Том 650. С. 222–235. doi :10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
- ^ Менцер Ф., Пант Г. и Шринивасан П. Тематические поисковые роботы: проблемы машинного обучения.
- ↑ Фань Дж. и Камбхампати С. Обзор общедоступных веб-сервисов, в архиве записей ACM SIGMOD, том 34, выпуск 1 (март 2005 г.).
- ^ Янь Чжэн Вэй, Люк Моро, Николас Р. Дженнингс. Рыночный подход к рекомендательным системам, в ACM Transactions on Information Systems (TOIS), 23(3), 2005.
- ^ Буриго Д. и Жакмен К. Извлечение терминов + кластеризация терминов: интегрированная платформа для компьютерной терминологии. Архивировано 19 июня 2006 г. в Wayback Machine , в Proc. of EACL, 1999.
- ^ Коллиер, Н.; Нобата, К.; Цуджи, Дж. (2002). «Автоматическое получение и классификация терминологии с использованием тегированного корпуса в области молекулярной биологии». Терминология . 7 (2): 239–257. doi :10.1075/term.7.2.07col.
- ^ K. Frantzi, S. Ananiadou и H. Mima. (2000). Автоматическое распознавание многословных терминов: метод C-value/NC-value. В: C. Nikolau и C. Stephanidis (Eds.) International Journal on Digital Libraries, Vol. 3, No. 2., pp. 115-130.
- ^ K. Frantzi, S. Ananiadou и J. Tsujii. (1998) Метод C-value/NC-value автоматического распознавания многословных терминов, в: ECDL '98 Труды Второй европейской конференции по исследованиям и передовым технологиям для цифровых библиотек, стр. 585-604. ISBN 3-540-65101-2
- ^ Л. Козаков; Ю. Парк; Т. Фин; Ю. Дрисси; Ю. Доганата и Т. Кофино. (2004). «Извлечение и использование глоссария в системе поиска и доставки информации для технической поддержки IBM» (PDF) . IBM Systems Journal . 43 (3): 546–563. doi :10.1147/sj.433.0546.
- ^ Навильи Р. и Веларди, П. Изучение онтологий предметной области из хранилищ документов и специализированных веб-сайтов. Компьютерная лингвистика. 30 (2), MIT Press, 2004, стр. 151-179
- ^ Оливер, А. и Васкес, М. TBXTools: бесплатный, быстрый и гибкий инструмент для автоматического извлечения терминологии. Труды конференции «Недавние достижения в обработке естественного языка» (RANLP 2015), 2015, стр. 473–479
- ^ Y. Park, RJ Byrd, B. Boguraev. «Автоматическое извлечение глоссария: за пределами идентификации терминологии», Международная конференция по компьютерной лингвистике, Труды 19-й международной конференции по компьютерной лингвистике - Тайбэй, Тайвань, 2002.
- ^ Sclano, F. и Velardi, P.. TermExtractor: веб-приложение для изучения общей терминологии развивающихся веб-сообществ. Опубликовано в Proc. 3-й Международной конференции по взаимодействию корпоративного программного обеспечения и приложений (I-ESA 2007). Фуншал (остров Мадейра), Португалия, 28–30 марта 2007 г.
- ^ П. Веларди, Р. Навильи, П. Д'Амадио. «Изучение Интернета для создания специализированных глоссариев», IEEE Intelligent Systems, 23(5), IEEE Press, 2008, стр. 18-25.
- ^ Wermter J. и Hahn U. Finding New terminology in Very large Corpora, в Proc. of K-CAP'05, 2–5 октября 2005 г., Банф, Альберта, Канада
- ^ Вонг, В., Лю, В. и Беннамун, М. (2007) Определение терминологии для изучения онтологий предметной области с использованием распространенности и тенденции предметной области. В: 6-я Австралазийская конференция по интеллектуальному анализу данных (AusDM); Голд-Кост. ISBN 978-1-920682-51-4
- ^ Вонг, В., Лю, В. и Беннамун, М. (2007) Определение терминологии для изучения онтологий предметной области в вероятностной структуре. В: 6-я Австралазийская конференция по интеллектуальному анализу данных (AusDM); Голд-Кост. ISBN 978-1-920682-51-4
- ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Неконтролируемое автоматическое извлечение ключевой фразы с использованием распространения сродства". Достижения в области вычислительных интеллектуальных систем . Достижения в области интеллектуальных систем и вычислений. Том 650. С. 222–235. doi :10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
- ^ Macken, Lieve; Lefever, Els; Hoste, Veronique (2013). "TExSIS: Извлечение двуязычной терминологии из параллельных корпусов с использованием выравнивания на основе фрагментов". Терминология . 19 (1): 1–30. doi :10.1075/term.19.1.01mac. hdl : 1854/LU-2128573 .
- ^ Шарофф, Серж; Рапп, Рейнхард; Цвайгенбаум, Пьер; Фунг, Паскаль (2013), Создание и использование сопоставимых корпораций (PDF) , Берлин: Springer-Verlag