stringtranslate.com

Извлечение знаний

Извлечение знаний — это создание знаний из структурированных ( реляционные базы данных , XML ) и неструктурированных ( текст , документы, изображения ) источников. Полученные знания должны быть в машиночитаемом и машиноинтерпретируемом формате и должны представлять знания таким образом, чтобы облегчить вывод. Хотя методически это похоже на извлечение информации ( NLP ) и ETL (хранилище данных), основным критерием является то, что результат извлечения выходит за рамки создания структурированной информации или преобразования в реляционную схему . Это требует либо повторного использования существующих формальных знаний (повторное использование идентификаторов или онтологий ), либо генерации схемы на основе исходных данных.

Группа W3C RDB2RDF [1] в настоящее время стандартизирует язык для извлечения структур описания ресурсов (RDF) из реляционных баз данных . Другим популярным примером извлечения знаний является преобразование Википедии в структурированные данные , а также сопоставление с существующими знаниями (см. DBpedia и Freebase ).

Обзор

После стандартизации языков представления знаний, таких как RDF и OWL , в этой области было проведено много исследований, особенно в отношении преобразования реляционных баз данных в RDF, разрешения идентификаторов , обнаружения знаний и изучения онтологий. В общем процессе используются традиционные методы извлечения информации , а также извлечения, преобразования и загрузки (ETL), которые преобразуют данные из источников в структурированные форматы.

Для категоризации подходов в этой теме можно использовать следующие критерии (некоторые из них учитывают только извлечение из реляционных баз данных): [2]

Примеры

Связывание объектов

  1. DBpedia Spotlight , OpenCalais , Dandelion dataTXT, Zemanta API, Extractiv и PoolParty Extractor анализируют свободный текст посредством распознавания именованных объектов , а затем устраняют неоднозначность кандидатов посредством разрешения имен и связывают найденные объекты с хранилищем знаний DBpedia [3] (демо-версия Dandelion dataTXT или DBpedia Веб-демо Spotlight или демо-версия PoolParty Extractor).

Президент Обама призвал в среду Конгресс продлить налоговые льготы для студентов, включенных в прошлогодний пакет экономических стимулов, утверждая, что эта политика обеспечивает более щедрую помощь.

Поскольку президент Обама связан с ресурсом DBpedia LinkedData , дополнительная информация может быть получена автоматически, и Semantic Reasoner может, например, сделать вывод, что упомянутый объект имеет тип Person (с использованием FOAF (программное обеспечение) ) и тип Президенты Соединенных Штатов ( с помощью YAGO ). Контрпримеры: методы, которые распознают только сущности или ссылаются на статьи Википедии и другие цели, которые не обеспечивают дальнейшего извлечения структурированных данных и формальных знаний.

Реляционные базы данных в RDF

  1. Triplify, D2R Server, Ultrawrap и Virtuoso RDF Views — это инструменты, преобразующие реляционные базы данных в RDF. В ходе этого процесса они позволяют повторно использовать существующие словари и онтологии в процессе преобразования. При преобразовании типичной реляционной таблицы с именем user один столбец (например, name ) или совокупность столбцов (например, first_name и Last_name ) должен предоставлять URI созданного объекта. Обычно используется первичный ключ. Любой другой столбец можно извлечь как связь с этой сущностью. [4] Затем для интерпретации информации используются (и повторно используются) свойства с формально определенной семантикой. Например, столбец в пользовательской таблице с именем ownTo можно определить как симметричное отношение, а домашнюю страницу столбца можно преобразовать в свойство из словаря FOAF с именем foaf:homepage, таким образом квалифицируя его как обратное функциональное свойство . Тогда каждая запись пользовательской таблицы может быть сделана экземпляром класса foaf:Person (Ontology Population). Кроме того, знания предметной области (в форме онтологии) могут быть созданы из status_id либо с помощью правил, созданных вручную (если status_id равен 2, запись принадлежит классу Teacher), либо с помощью (полу)автоматических методов ( обучение онтологии ). Вот пример трансформации:
 : Питер  : женат Кому  : Мэри  .  : женат  Сове  : SymmetricProperty . _ : Питер Фоаф : домашняя страница <http://example.org/Peters_page> . : Пётр - пена : Человек . : Пётр а : Студент . : Клаус а : Учитель .                 

Извлечение из структурированных источников в RDF

Сопоставление 1:1 таблиц/представлений RDB с объектами/атрибутами/значениями RDF

При построении RDB-представления проблемной области отправной точкой часто является диаграмма сущностей-связей (ERD). Обычно каждая сущность представляется в виде таблицы базы данных, каждый атрибут сущности становится столбцом в этой таблице, а связи между сущностями обозначаются внешними ключами. Каждая таблица обычно определяет определенный класс сущности, а каждый столбец — один из его атрибутов. Каждая строка в таблице описывает экземпляр сущности, однозначно идентифицируемый первичным ключом. Строки таблицы в совокупности описывают набор сущностей. В эквивалентном RDF-представлении того же набора сущностей:

Итак, чтобы отобразить эквивалентное представление на основе семантики RDF, базовый алгоритм сопоставления будет следующим:

  1. создать класс RDFS для каждой таблицы
  2. преобразовать все первичные и внешние ключи в IRI
  3. назначить предикат IRI для каждого столбца
  4. назначьте предикат rdf:type для каждой строки, связав его с IRI класса RDFS, соответствующим таблице.
  5. для каждого столбца, который не является ни частью первичного, ни внешнего ключа, создайте тройку, содержащую IRI первичного ключа в качестве субъекта, IRI столбца в качестве предиката и значение столбца в качестве объекта.

Ранние упоминания об этом базовом или прямом сопоставлении можно найти в сравнении Тима Бернерса-Ли модели ER с моделью RDF. [4]

Сложные сопоставления реляционных баз данных с RDF

Упомянутое выше сопоставление 1:1 представляет устаревшие данные в виде RDF простым способом. Дополнительные усовершенствования могут быть использованы для повышения полезности выходных данных RDF в соответствии с заданными вариантами использования. Обычно информация теряется во время преобразования диаграммы объектно-связных данных (ERD) в реляционные таблицы (подробности можно найти в разделе « Несоответствие импеданса объектно-реляционному ») и ее необходимо реконструировать . С концептуальной точки зрения, подходы к извлечению могут исходить из двух направлений. Первое направление пытается извлечь или изучить схему OWL из данной схемы базы данных. Ранние подходы использовали фиксированное количество созданных вручную правил сопоставления для уточнения сопоставления 1:1. [5] [6] [7] Более сложные методы используют эвристику или алгоритмы обучения для получения схематической информации (методы частично совпадают с обучением онтологий ). В то время как некоторые подходы пытаются извлечь информацию из структуры, присущей схеме SQL [8] (анализируя, например, внешние ключи), другие анализируют содержимое и значения в таблицах для создания концептуальных иерархий [9] (например, столбцы с небольшим количеством значений являются кандидатами на становление категориями). Второе направление пытается сопоставить схему и ее содержимое с уже существующей онтологией предметной области (см. также: выравнивание онтологии ). Однако зачастую подходящей онтологии предметной области не существует, и ее необходимо сначала создать.

XML

Поскольку XML структурирован в виде дерева, любые данные можно легко представить в формате RDF, структурированном в виде графа. XML2RDF — это один из примеров подхода, который использует пустые узлы RDF и преобразует элементы и атрибуты XML в свойства RDF. Однако эта тема более сложна, как и в случае с реляционными базами данных. В реляционной таблице первичный ключ является идеальным кандидатом на роль объекта извлеченных троек. Однако элемент XML может быть преобразован - в зависимости от контекста - как субъект, предикат или объект тройки. XSLT можно использовать в качестве стандартного языка преобразования для ручного преобразования XML в RDF.

Обзор методов/инструментов

Извлечение из источников естественного языка

Большая часть информации, содержащейся в деловых документах (около 80% [10] ), закодирована на естественном языке и поэтому неструктурирована. Поскольку неструктурированные данные представляют собой сложную задачу для извлечения знаний, требуются более сложные методы, которые обычно дают худшие результаты по сравнению со структурированными данными. Однако потенциал массового приобретения извлеченных знаний должен компенсировать возросшую сложность и снижение качества извлечения. Далее под источниками естественного языка понимаются источники информации, в которых данные предоставляются в неструктурированной форме в виде обычного текста. Если данный текст дополнительно встроен в документ разметки (например, документ HTML), упомянутые системы обычно автоматически удаляют элементы разметки.

Лингвистическая аннотация/обработка естественного языка (НЛП)

В качестве этапа предварительной обработки при извлечении знаний может потребоваться выполнить лингвистическую аннотацию с помощью одного или нескольких инструментов НЛП . Отдельные модули в рабочем процессе НЛП обычно основаны на форматах ввода и вывода, специфичных для инструмента, но в контексте извлечения знаний применяются структурированные форматы для представления лингвистических аннотаций.

Типичные задачи НЛП, связанные с извлечением знаний, включают:

В НЛП такие данные обычно представляются в форматах TSV (форматы CSV с разделителями TAB), часто называемых форматами CoNLL. Для рабочих процессов извлечения знаний представления RDF таких данных были созданы в соответствии со следующими стандартами сообщества:

Другие форматы, специфичные для конкретной платформы, включают в себя

Традиционное извлечение информации (IE)

Традиционное извлечение информации [20] — это технология обработки естественного языка, которая извлекает информацию из текстов на естественном языке и структурирует ее подходящим образом. Виды информации, подлежащей идентификации, должны быть указаны в модели перед началом процесса, поэтому весь процесс традиционного извлечения информации зависит от предметной области. IE разделен на следующие пять подзадач.

Задача распознавания именованного объекта — распознать и классифицировать все именованные объекты, содержащиеся в тексте (отнесение именованного объекта к заранее определенной категории). Это работает путем применения методов, основанных на грамматике, или статистических моделей.

Разрешение кореференции идентифицирует эквивалентные объекты, которые были распознаны NER, в тексте. Существует два соответствующих вида отношений эквивалентности. Первый относится к отношениям между двумя различными представленными объектами (например, IBM Europe и IBM), а второй — к отношениям между объектом и их анафорическими ссылками (например, он и IBM). Оба вида можно распознать по разрешению кореференции.

При построении элемента шаблона система IE идентифицирует описательные свойства объектов, распознаваемые NER и CO. Эти свойства соответствуют обычным качествам, таким как красный или большой.

Конструкция отношения шаблона идентифицирует отношения, существующие между элементами шаблона. Эти отношения могут быть нескольких видов, например «работает для» или «расположен в», с тем ограничением, что и домен, и диапазон соответствуют сущностям.

В шаблонном сценарии производственные события, описанные в тексте, будут идентифицированы и структурированы относительно сущностей, распознаваемых NER и CO, и отношений, идентифицируемых TR.

Извлечение информации на основе онтологий (OBIE)

Извлечение информации на основе онтологий [10] — это подобласть извлечения информации, в которой по крайней мере одна онтология используется для управления процессом извлечения информации из текста на естественном языке. Система OBIE использует методы традиционного извлечения информации для идентификации концепций , экземпляров и отношений используемых онтологий в тексте, которые после процесса будут структурированы в онтологию. Таким образом, входные онтологии составляют модель информации, подлежащей извлечению. [21]

Обучение онтологии (OL)

Обучение онтологии — это автоматическое или полуавтоматическое создание онтологий, включая извлечение терминов соответствующей предметной области из текста на естественном языке. Поскольку построение онтологий вручную чрезвычайно трудоемко и занимает много времени, существует большая мотивация автоматизировать этот процесс.

Семантическая аннотация (СА)

Во время семантической аннотации [22] текст на естественном языке дополняется метаданными (часто представленными в RDFa ), что должно сделать семантику содержащихся в нем терминов машинопонятной. В этом процессе, который обычно является полуавтоматическим, знания извлекаются в том смысле, что устанавливается связь между лексическими терминами и, например, понятиями из онтологий. Таким образом получаются знания, какое значение термина в обрабатываемом контексте имелось в виду и, следовательно, смысл текста основывается на машиночитаемых данных с возможностью делать выводы. Семантическая аннотация обычно разбивается на следующие две подзадачи.

  1. Извлечение терминологии
  2. Связывание объектов

На уровне извлечения терминологии из текста извлекаются лексические термины. Для этого токенизатор сначала определяет границы слов и разгадывает сокращения. После этого термины из текста, соответствующие понятию, извлекаются с помощью предметно-специфичного словаря для их связывания при связывании сущностей.

При связывании сущностей [23] устанавливается связь между извлеченными лексическими терминами из исходного текста и понятиями из онтологии или базы знаний, такой как DBpedia . Для этого с помощью лексикона выявляются понятия-кандидаты, соответствующие нескольким значениям термина. Наконец, контекст терминов анализируется, чтобы определить наиболее подходящее значение и соотнести термин с правильным понятием.

Обратите внимание, что «семантическую аннотацию» в контексте извлечения знаний не следует путать с семантическим анализом , который понимается при обработке естественного языка (также называемый «семантической аннотацией»): целью семантического анализа является полное, машиночитаемое представление естественного языка. , тогда как семантическая аннотация в смысле извлечения знаний затрагивает лишь очень элементарный аспект этого процесса.

Инструменты

Следующие критерии можно использовать для классификации инструментов, извлекающих знания из текста на естественном языке.

В следующей таблице описаны некоторые инструменты для извлечения знаний из источников на естественном языке.

Открытие знаний

Обнаружение знаний описывает процесс автоматического поиска в больших объемах данных шаблонов, которые можно считать знаниями о данных. [44] Его часто описывают как получение знаний из входных данных. Обнаружение знаний развилось из области интеллектуального анализа данных и тесно связано с ней как с точки зрения методологии, так и с точки зрения терминологии. [45]

Наиболее известной отраслью интеллектуального анализа данных является обнаружение знаний, также известное как обнаружение знаний в базах данных (KDD). Как и многие другие формы открытия знаний, он создает абстракции входных данных. Знания , полученные в ходе этого процесса, могут стать дополнительными данными , которые можно использовать для дальнейшего использования и открытий. Часто результаты открытия знаний не являются практически осуществимыми. Обнаружение действенных знаний , также известное как интеллектуальный анализ данных на основе предметной области , [46] направлено на обнаружение и предоставление практических знаний и идей.

Другое многообещающее применение обнаружения знаний находится в области модернизации программного обеспечения , обнаружения слабых мест и обеспечения соответствия требованиям, что предполагает понимание существующих артефактов программного обеспечения. Этот процесс связан с концепцией обратного проектирования . Обычно знания, полученные с помощью существующего программного обеспечения, представлены в виде моделей, к которым при необходимости можно делать конкретные запросы. Отношения сущностей — это распространенный формат представления знаний, полученных из существующего программного обеспечения. Группа управления объектами (OMG) разработала спецификацию «Метамодель обнаружения знаний» (KDM), которая определяет онтологию для программных активов и их взаимосвязей с целью обнаружения знаний в существующем коде. Обнаружение знаний из существующих программных систем, также известное как интеллектуальный анализ программного обеспечения , тесно связано с интеллектуальным анализом данных , поскольку существующие артефакты программного обеспечения содержат огромную ценность для управления рисками и ценность для бизнеса , что является ключевым моментом для оценки и развития программных систем. Вместо анализа отдельных наборов данных программный анализ фокусируется на метаданных , таких как потоки процессов (например, потоки данных, потоки управления и карты вызовов), архитектура, схемы баз данных и бизнес-правила/термины/процессы.

Входные данные

Выходные форматы

Смотрите также

дальнейшее чтение

Рекомендации

  1. ^ Рабочая группа RDB2RDF, веб-сайт: http://www.w3.org/2001/sw/rdb2rdf/, устав: http://www.w3.org/2009/08/rdb2rdf-charter, R2RML: сопоставление RDB с RDF Язык: http://www.w3.org/TR/r2rml/
  2. ^ LOD2 Результат ЕС 3.1.1. Извлечение знаний из структурированных источников http://static.lod2.eu/Deliverables/deliverable-3.1.1.pdf. Архивировано 27 августа 2011 г. на Wayback Machine.
  3. ^ «Жизнь в облаке связанных данных». www.opencalais.com. Архивировано из оригинала 24 ноября 2009 г. Проверено 10 ноября 2009 г. У Википедии есть двойник Linked Data под названием DBpedia. DBpedia имеет ту же структурированную информацию, что и Википедия, но переведена в машиночитаемый формат.
  4. ^ ab Тим Бернерс-Ли (1998), «Реляционные базы данных в семантической сети». Проверено: 20 февраля 2011 г.
  5. ^ Ху и др. (2007), «Обнаружение простых сопоставлений между схемами реляционных баз данных и онтологиями», в Proc. 6-й Международной конференции по семантической сети (ISWC 2007), 2-й Азиатской конференции по семантической сети (ASWC 2007), LNCS 4825, страницы 225–238, Пусан, Корея, 11–15 ноября 2007 г. http://citeseerx.ist.psu.edu /viewdoc/download?doi=10.1.1.97.6934&rep=rep1&type=pdf
  6. ^ Р. Гави и Н. Калло (2007), «Генерация сопоставления базы данных с онтологией для семантической совместимости». На третьем международном семинаре по совместимости баз данных (InterDB 2007). http://le2i.cnrs.fr/IMG/publications/InterDB07-Ghawi.pdf
  7. ^ Ли и др. (2005) «Полуавтоматический метод получения онтологий для семантической сети», WAIM, том 3739 конспектов лекций по информатике, страницы 209–220. Спрингер. дои : 10.1007/11563952_19
  8. ^ Тирмизи и др. (2008), «Перевод приложений SQL в семантическую сеть», Конспекты лекций по информатике, том 5181/2008 (Приложения баз данных и экспертных систем). http://citeseer.ist.psu.edu/viewdoc/download;jsessionid=15E8AB2A37BD06DAE59255A1AC3095F0?doi=10.1.1.140.3169&rep=rep1&type=pdf
  9. ^ Фарид Серба (2008). «Изучение высокоструктурированных семантических хранилищ из реляционных баз данных», Семантическая сеть: исследования и приложения, том 5021 конспектов лекций по информатике, Springer, Берлин / Гейдельберг http://www.tao-project.eu/resources/publications/cerbah -learning-highly-structured-semantic-repositories-from-relational-databases.pdf Архивировано 20 июля 2011 г. на Wayback Machine.
  10. ^ аб Вималасурия, Дайя К.; Доу, Децзин (2010). «Извлечение информации на основе онтологий: введение и обзор современных подходов», Journal of Information Science , 36 (3), стр. 306–323, http://ix.cs.uoregon.edu/~dou/research/papers/jis09.pdf (дата обращения: 18.06.2012).
  11. ^ «Формат обмена NLP (NIF) 2.0 - Обзор и документация» . persistence.uni-leipzig.org . Проверено 5 июня 2020 г.
  12. ^ Хеллманн, Себастьян; Леманн, Йенс; Ауэр, Сёрен; Брюммер, Мартин (2013). Алани, Харит; Кагал, Лалана; Фокуэ, Ахилл; Грот, Пол; Биманн, Крис; Паррейра, Жозиан Ксавье; Аройо, Лора; Ной, Наташа; Велти, Крис (ред.). «Интеграция НЛП с использованием связанных данных». Семантическая сеть – ISWC 2013 . Конспекты лекций по информатике. Берлин, Гейдельберг: Springer. 7908 : 98–113. дои : 10.1007/978-3-642-41338-4_7 . ISBN 978-3-642-41338-4.
  13. ^ Верспур, Карин; Ливингстон, Кевин (июль 2012 г.). «К адаптации лингвистических аннотаций к формализмам научных аннотаций в семантической сети». Материалы шестого семинара по лингвистическому аннотированию . Чеджу, Республика Корея: Ассоциация компьютерной лингвистики: 75–84.
  14. ^ acoli-repo/conll-rdf, ACoLi, 27 мая 2020 г. , получено 5 июня 2020 г.
  15. ^ Кьяркос, Кристиан; Фет, Кристиан (2017). Грасия, Хорхе; Бонд, Фрэнсис; МакКрэй, Джон П.; Буителаар, Пол; Кьяркос, Кристиан; Хеллманн, Себастьян (ред.). «CoNLL-RDF: Связанная корпорация, созданная с учетом требований НЛП». Язык, данные и знания . Конспекты лекций по информатике. Чам: Международное издательство Springer. 10318 : 74–88. дои : 10.1007/978-3-319-59888-8_6. ISBN 978-3-319-59888-8.
  16. ^ Верхаген, Марк; Судерман, Кейт; Ван, Ди; Иде, Нэнси; Ши, Чунци; Райт, Джонатан; Пустейовский, Джеймс (2016). Мураками, Ёхей; Линь, Дунхуэй (ред.). «Формат обмена LAPPS». Всемирная инфраструктура языковых услуг . Конспекты лекций по информатике. Чам: Международное издательство Springer. 9442 : 33–47. дои : 10.1007/978-3-319-31468-6_3. ISBN 978-3-319-31468-6.
  17. ^ «Сетка языковых приложений | Платформа веб-сервисов для разработки и исследования обработки естественного языка» . Проверено 5 июня 2020 г.
  18. ^ newsreader/NAF, NewsReader, 25 мая 2020 г. , получено 5 июня 2020 г.
  19. ^ Воссен, Пик; Аджерри, Родриго; Альдабе, Ициар; Цибульская, Агата; ван Эрп, Марике; Фоккенс, Антске; Лапарра, Эгоитц; Минар, Анн-Лиз; Пальмеро Апросио, Алессио; Ригау, немецкий; Роспочер, Марко (15 октября 2016 г.). «NewsReader: использование ресурсов знаний в многоязычной машине чтения для получения большего количества знаний из огромных потоков новостей». Системы, основанные на знаниях . 110 : 60–85. дои : 10.1016/j.knosys.2016.07.013 . ISSN  0950-7051.
  20. ^ Каннингем, Хэмиш (2005). «Автоматическое извлечение информации», Энциклопедия языка и лингвистики , 2, с. 665–677, http://gate.ac.uk/sale/ell2/ie/main.pdf (дата обращения: 18.06.2012).
  21. ^ Чикко, Д; Массероли, М (2016). «Прогнозирование на основе онтологий и приоритезация функциональных аннотаций генов». Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 13 (2): 248–260. дои : 10.1109/TCBB.2015.2459694. PMID  27045825. S2CID  2795344.
  22. ^ Эрдманн, М.; Маедче, Александр; Шнурр, Х.-П.; Стааб, Штеффен (2000). «От руководства к полуавтоматической семантической аннотации: об инструментах текстовых аннотаций на основе онтологий», Proceedings of COLING , http://www.ida.liu.se/ext/epa/cis/2001/002/paper.pdf ( дата обращения: 18.06.2012).
  23. ^ Рао, Делип; МакНэми, Пол; Дредзе, Марк (2011). «Связывание сущностей: поиск извлеченных сущностей в базе знаний», Извлечение и обобщение многоязычной информации из нескольких источников , http://www.cs.jhu.edu/~delip/entity-linking.pdf [ постоянная мертвая ссылка ] (дата обращения: 18.06.2012).
  24. ^ Rocket Software, Inc. (2012). «Технология извлечения информации из текста», http://www.rocketsoftware.com/products/aerotext. Архивировано 21 июня 2013 г. на Wayback Machine (дата обращения: 18.06.2012).
  25. ^ Orchestr8 (2012): «Обзор AlchemyAPI», http://www.alchemyapi.com/api. Архивировано 13 мая 2016 г. на Wayback Machine (дата обращения: 18.06.2012).
  26. ^ Университет Шеффилда (2011). «ЭННИ: почти новая система извлечения информации», http://gate.ac.uk/sale/tao/splitch6.html#chap:annie (дата обращения: 18.06.2012).
  27. ^ Сеть передового опыта ILP. «ASIUM (LRI)», http://www-ai.ijs.si/~ilpnet2/systems/asium.html (дата обращения: 18.06.2012).
  28. ^ Внимательность (2012). «Исчерпывающее извлечение», http://www.attensity.com/products/technology/semantic-server/exhaustive-extraction/. Архивировано 11 июля 2012 г. на Wayback Machine (дата обращения: 18.06.2012).
  29. ^ Мендес, Пабло Н.; Якоб, Макс; Гарсиа-Сильва, Андрес; Бизер; Кристиан (2011). «В центре внимания DBpedia: проливая свет на сеть документов», Материалы 7-й Международной конференции по семантическим системам , стр. 1–8, http://www.wiwiss.fu-berlin.de/en/institute/pwo/bizer/research/publications/Mendes-Jakob-GarciaSilva-Bizer-DBpediaSpotlight-ISEM2011.pdf. Архивировано 5 апреля 2012 г. на Wayback Machine (дата обращения: 18.06.2012).
  30. ^ Гангеми, Альдо; Пресутти, Валентина; Рефоргиато Рекуперо, Диего; Нуццолезе, Андреа Джованни; Драйккио, Франческо; Монджиови, Мисаэль (2016). «Машинное чтение семантической сети с помощью FRED», Semantic Web Journal , doi : 10.3233/SW-160240, http://www.semantic-web-journal.net/system/files/swj1379.pdf
  31. ^ Адриан, Бенджамин; Маус, Хейко; Денгель, Андреас (2009). «iDocument: использование онтологий для извлечения информации из текста», http://www.dfki.uni-kl.de/~maus/dok/AdrianMausDengel09.pdf (дата обращения: 18.06.2012).
  32. ^ SRA International, Inc. (2012). «NetOwl Extractor», http://www.sra.com/netowl/entity-extraction/. Архивировано 24 сентября 2012 г. на Wayback Machine (дата обращения: 18.06.2012).
  33. ^ Фортуна, Блаз; Гробельник, Марко; Младенич, Дуня (2007). «OntoGen: Полуавтоматический редактор онтологий», Материалы конференции 2007 г. по человеческому интерфейсу, Часть 2 , стр. 309–318, http://analytics.ijs.si/~blazf/papers/OntoGen2_HCII2007.pdf (дата обращения: 18.06.2012).
  34. ^ Миссикофф, Мишель; Навильи, Роберто; Веларди, Паола (2002). «Интегрированный подход к обучению и разработке веб-онтологий», Компьютер , 35 (11), стр. 60–63, http://wwwusers.di.uniroma1.it/~velardi/IEEE_C.pdf (дата обращения: 18.06.2012).
  35. ^ Макдауэлл, Люк К.; Кафарелла, Майкл (2006). «Извлечение информации на основе онтологий с помощью OntoSyphon», Материалы 5-й международной конференции по семантической сети , с. 428–444, http://turing.cs.washington.edu/papers/iswc2006McDowell-final.pdf (дата обращения: 18.06.2012).
  36. ^ Йылдыз, Бурку; Микш, Сильвия (2007). «ontoX — метод извлечения информации на основе онтологий», Материалы международной конференции 2007 г. по вычислительной науке и ее приложениям , 3, стр. 660–673, http://publik.tuwien.ac.at/files/pub-inf_4769.pdf (дата обращения: 18.06.2012).
  37. ^ semanticweb.org (2011). «PoolParty Extractor», http://semanticweb.org/wiki/Knowledge_extraction/PoolParty_Extractor. Архивировано 4 марта 2016 г. на Wayback Machine (дата обращения: 18.06.2012).
  38. ^ Дилл, Стивен; Эйрон, Надав; Гибсон, Дэвид; Грул, Дэниел; Гуха, Р.; Джингран, Анант; Канунго, Тапас; Раджагопалан, Шридхар; Томкинс, Эндрю; Томлин, Джон А.; Зиен, Джейсон Ю. (2003). «SemTag и Seeker: загрузка семантической сети с помощью автоматизированной семантической аннотации», Материалы 12-й международной конференции по Всемирной паутине , стр. 178–186, http://www2003.org/cdrom/papers/refereed/p831/p831-dill.html (дата обращения: 18.06.2012).
  39. ^ Урен, Виктория; Чимиано, Филипп; Ирия, Хосе; Хандшу, Зигфрид; Варгас-Вера, Мария; Мотта, Энрико; Чиравенья, Фабио (2006). «Семантическая аннотация для управления знаниями: требования и обзор современного состояния», Веб-семантика: наука, услуги и агенты во Всемирной паутине , 4 (1), с. 14–28, http://staffwww.dcs.shef.ac.uk/people/J.Iria/iria_jws06.pdf [ постоянная неработающая ссылка ] (дата обращения: 18.06.2012).
  40. ^ Чимиано, Филипп; Фёлкер, Йоханна (2005). «Text2Onto — основа для изучения онтологий и обнаружения изменений, управляемых данными», Материалы 10-й Международной конференции по применению естественного языка в информационных системах , 3513, стр. 227–238, http://www.cimiano.de/Publications/2005/nldb05/nldb05.pdf (дата обращения: 18.06.2012).
  41. ^ Маедче, Александр; Фольц, Рафаэль (2001). «Структура извлечения и обслуживания онтологий Text-To-Onto», Труды Международной конференции IEEE по интеллектуальному анализу данных , http://users.csc.calpoly.edu/~fkurfess/Events/DM-KM-01/Volz.pdf (дата обращения: 18.06.2012).
  42. ^ Соединение машин. «Мы подключаемся к облаку связанных открытых данных», http://thewikimachine.fbk.eu/html/index.html. Архивировано 19 июля 2012 г. на Wayback Machine (дата обращения: 18.06.2012).
  43. ^ Федеральные системы Inxight (2008). «Inxight ThingFinder и ThingFinder Professional», http://inxightfedsys.com/products/sdks/tf/. Архивировано 29 июня 2012 г. на Wayback Machine (дата обращения: 18.06.2012).
  44. ^ Фроули Уильям. Ф. и др. (1992), «Обнаружение знаний в базах данных: обзор», журнал AI Magazine (том 13, № 3), 57–70 (полная онлайн-версия: http://www.aaai.org/ojs/index.php/aimagazine/ Article/viewArticle/1011. Архивировано 4 марта 2016 г. в Wayback Machine )
  45. ^ Файяд У. и др. (1996), «От интеллектуального анализа данных к обнаружению знаний в базах данных», журнал AI (том 17, № 3), 37–54 (полная онлайн-версия: http://www.aaai.org/ojs/index.php/aimagazine). /article/viewArticle/1230 Архивировано 4 мая 2016 г. в Wayback Machine.
  46. ^ Цао, Л. (2010). «Доменно-ориентированный анализ данных: проблемы и перспективы». Транзакции IEEE по знаниям и инженерии данных . 22 (6): 755–769. CiteSeerX 10.1.1.190.8427 . дои : 10.1109/tkde.2010.32. S2CID  17904603.