Извлечение знаний

Извлечение знаний — это создание знаний из структурированных ( реляционные базы данных , XML ) и неструктурированных ( текст , документы, изображения ) источников. Полученные знания должны быть в машиночитаемом и машиноинтерпретируемом формате и должны представлять знания таким образом, чтобы облегчить вывод. Хотя методически это похоже на извлечение информации ( NLP ) и ETL (хранилище данных), основным критерием является то, что результат извлечения выходит за рамки создания структурированной информации или преобразования в реляционную схему . Это требует либо повторного использования существующих формальных знаний (повторное использование идентификаторов или онтологий ), либо генерации схемы на основе исходных данных.

Группа W3C RDB2RDF ^[1] в настоящее время стандартизирует язык для извлечения структур описания ресурсов (RDF) из реляционных баз данных . Другим популярным примером извлечения знаний является преобразование Википедии в структурированные данные , а также сопоставление с существующими знаниями (см. DBpedia и Freebase ).

Обзор

После стандартизации языков представления знаний, таких как RDF и OWL , в этой области было проведено много исследований, особенно в отношении преобразования реляционных баз данных в RDF, разрешения идентификаторов , обнаружения знаний и изучения онтологий. В общем процессе используются традиционные методы извлечения информации , а также извлечения, преобразования и загрузки (ETL), которые преобразуют данные из источников в структурированные форматы.

Для категоризации подходов в этой теме можно использовать следующие критерии (некоторые из них учитывают только извлечение из реляционных баз данных): ^[2]

Примеры

Связывание объектов

DBpedia Spotlight , OpenCalais , Dandelion dataTXT, Zemanta API, Extractiv и PoolParty Extractor анализируют свободный текст посредством распознавания именованных объектов , а затем устраняют неоднозначность кандидатов посредством разрешения имен и связывают найденные объекты с хранилищем знаний DBpedia ^[3] (демо-версия Dandelion dataTXT или DBpedia Веб-демо Spotlight или демо-версия PoolParty Extractor).

Президент Обама призвал в среду Конгресс продлить налоговые льготы для студентов, включенных в прошлогодний пакет экономических стимулов, утверждая, что эта политика обеспечивает более щедрую помощь.

Поскольку президент Обама связан с ресурсом DBpedia LinkedData , дополнительная информация может быть получена автоматически, и Semantic Reasoner может, например, сделать вывод, что упомянутый объект имеет тип Person (с использованием FOAF (программное обеспечение) ) и тип Президенты Соединенных Штатов ( с помощью YAGO ). Контрпримеры: методы, которые распознают только сущности или ссылаются на статьи Википедии и другие цели, которые не обеспечивают дальнейшего извлечения структурированных данных и формальных знаний.

Реляционные базы данных в RDF

Triplify, D2R Server, Ultrawrap и Virtuoso RDF Views — это инструменты, преобразующие реляционные базы данных в RDF. В ходе этого процесса они позволяют повторно использовать существующие словари и онтологии в процессе преобразования. При преобразовании типичной реляционной таблицы с именем user один столбец (например, name ) или совокупность столбцов (например, first_name и Last_name ) должен предоставлять URI созданного объекта. Обычно используется первичный ключ. Любой другой столбец можно извлечь как связь с этой сущностью. ^[4] Затем для интерпретации информации используются (и повторно используются) свойства с формально определенной семантикой. Например, столбец в пользовательской таблице с именем ownTo можно определить как симметричное отношение, а домашнюю страницу столбца можно преобразовать в свойство из словаря FOAF с именем foaf:homepage, таким образом квалифицируя его как обратное функциональное свойство . Тогда каждая запись пользовательской таблицы может быть сделана экземпляром класса foaf:Person (Ontology Population). Кроме того, знания предметной области (в форме онтологии) могут быть созданы из status_id либо с помощью правил, созданных вручную (если status_id равен 2, запись принадлежит классу Teacher), либо с помощью (полу)автоматических методов ( обучение онтологии ). Вот пример трансформации:

 : Питер  : женат Кому  : Мэри  .  : женат  Сове  : SymmetricProperty . _ : Питер Фоаф : домашняя страница <http://example.org/Peters_page> . : Пётр - пена : Человек . : Пётр а : Студент . : Клаус а : Учитель .

Извлечение из структурированных источников в RDF

Сопоставление 1:1 таблиц/представлений RDB с объектами/атрибутами/значениями RDF

При построении RDB-представления проблемной области отправной точкой часто является диаграмма сущностей-связей (ERD). Обычно каждая сущность представляется в виде таблицы базы данных, каждый атрибут сущности становится столбцом в этой таблице, а связи между сущностями обозначаются внешними ключами. Каждая таблица обычно определяет определенный класс сущности, а каждый столбец — один из его атрибутов. Каждая строка в таблице описывает экземпляр сущности, однозначно идентифицируемый первичным ключом. Строки таблицы в совокупности описывают набор сущностей. В эквивалентном RDF-представлении того же набора сущностей:

Каждый столбец в таблице является атрибутом (т. е. предикатом).
Каждое значение столбца является значением атрибута (т. е. объекта).
Каждый ключ строки представляет идентификатор объекта (т. е. субъекта).
Каждая строка представляет экземпляр сущности.
Каждая строка (экземпляр объекта) представлена в RDF набором троек с общим предметом (идентификатором объекта).

Итак, чтобы отобразить эквивалентное представление на основе семантики RDF, базовый алгоритм сопоставления будет следующим:

создать класс RDFS для каждой таблицы
преобразовать все первичные и внешние ключи в IRI
назначить предикат IRI для каждого столбца
назначьте предикат rdf:type для каждой строки, связав его с IRI класса RDFS, соответствующим таблице.
для каждого столбца, который не является ни частью первичного, ни внешнего ключа, создайте тройку, содержащую IRI первичного ключа в качестве субъекта, IRI столбца в качестве предиката и значение столбца в качестве объекта.

Ранние упоминания об этом базовом или прямом сопоставлении можно найти в сравнении Тима Бернерса-Ли модели ER с моделью RDF. ^[4]

Сложные сопоставления реляционных баз данных с RDF

Упомянутое выше сопоставление 1:1 представляет устаревшие данные в виде RDF простым способом. Дополнительные усовершенствования могут быть использованы для повышения полезности выходных данных RDF в соответствии с заданными вариантами использования. Обычно информация теряется во время преобразования диаграммы объектно-связных данных (ERD) в реляционные таблицы (подробности можно найти в разделе « Несоответствие импеданса объектно-реляционному ») и ее необходимо реконструировать . С концептуальной точки зрения, подходы к извлечению могут исходить из двух направлений. Первое направление пытается извлечь или изучить схему OWL из данной схемы базы данных. Ранние подходы использовали фиксированное количество созданных вручную правил сопоставления для уточнения сопоставления 1:1. ^[5]^[6]^[7] Более сложные методы используют эвристику или алгоритмы обучения для получения схематической информации (методы частично совпадают с обучением онтологий ). В то время как некоторые подходы пытаются извлечь информацию из структуры, присущей схеме SQL ^[8] (анализируя, например, внешние ключи), другие анализируют содержимое и значения в таблицах для создания концептуальных иерархий ^[9] (например, столбцы с небольшим количеством значений являются кандидатами на становление категориями). Второе направление пытается сопоставить схему и ее содержимое с уже существующей онтологией предметной области (см. также: выравнивание онтологии ). Однако зачастую подходящей онтологии предметной области не существует, и ее необходимо сначала создать.

XML

Поскольку XML структурирован в виде дерева, любые данные можно легко представить в формате RDF, структурированном в виде графа. XML2RDF — это один из примеров подхода, который использует пустые узлы RDF и преобразует элементы и атрибуты XML в свойства RDF. Однако эта тема более сложна, как и в случае с реляционными базами данных. В реляционной таблице первичный ключ является идеальным кандидатом на роль объекта извлеченных троек. Однако элемент XML может быть преобразован - в зависимости от контекста - как субъект, предикат или объект тройки. XSLT можно использовать в качестве стандартного языка преобразования для ручного преобразования XML в RDF.

Обзор методов/инструментов

Извлечение из источников естественного языка

Большая часть информации, содержащейся в деловых документах (около 80% ^[10] ), закодирована на естественном языке и поэтому неструктурирована. Поскольку неструктурированные данные представляют собой сложную задачу для извлечения знаний, требуются более сложные методы, которые обычно дают худшие результаты по сравнению со структурированными данными. Однако потенциал массового приобретения извлеченных знаний должен компенсировать возросшую сложность и снижение качества извлечения. Далее под источниками естественного языка понимаются источники информации, в которых данные предоставляются в неструктурированной форме в виде обычного текста. Если данный текст дополнительно встроен в документ разметки (например, документ HTML), упомянутые системы обычно автоматически удаляют элементы разметки.

Лингвистическая аннотация/обработка естественного языка (НЛП)

В качестве этапа предварительной обработки при извлечении знаний может потребоваться выполнить лингвистическую аннотацию с помощью одного или нескольких инструментов НЛП . Отдельные модули в рабочем процессе НЛП обычно основаны на форматах ввода и вывода, специфичных для инструмента, но в контексте извлечения знаний применяются структурированные форматы для представления лингвистических аннотаций.

Типичные задачи НЛП, связанные с извлечением знаний, включают:

тегирование части речи (POS)
лемматизация (LEMMA) или стемминг (STEM)
устранение неоднозначности смысла слова (WSD, связанное с семантической аннотацией ниже)
распознавание именованного объекта (NER, см. также IE ниже)
синтаксический анализ, часто с применением синтаксических зависимостей (DEP)
поверхностный синтаксический анализ (CHUNK): если производительность является проблемой, фрагментирование позволяет быстро извлечь именные и другие фразы.
разрешение анафоры (см. разрешение кореференции в IE ниже, но здесь рассматривается как задача по созданию связей между текстовыми упоминаниями, а не между упоминанием объекта и абстрактным представлением объекта)
разметка семантических ролей (SRL, связанная с извлечением отношений; не путать с семантической аннотацией, как описано ниже)
анализ дискурса (отношения между различными предложениями, редко используемые в реальных приложениях)

В НЛП такие данные обычно представляются в форматах TSV (форматы CSV с разделителями TAB), часто называемых форматами CoNLL. Для рабочих процессов извлечения знаний представления RDF таких данных были созданы в соответствии со следующими стандартами сообщества:

Формат обмена NLP (NIF, для многих распространенных типов аннотаций) ^[11]^[12]
Веб-аннотации (WA, часто используются для связывания объектов) ^[13]
CoNLL-RDF (для аннотаций, изначально представленных в форматах TSV) ^[14]^[15]

Другие форматы, специфичные для конкретной платформы, включают в себя

Формат обмена LAPPS (LIF, используемый в сетке LAPPS) ^[16]^[17]
Формат аннотаций NLP (NAF, используемый в системе управления рабочим процессом NewsReader) ^[18]^[19]

Традиционное извлечение информации (IE)

Традиционное извлечение информации ^[20] — это технология обработки естественного языка, которая извлекает информацию из текстов на естественном языке и структурирует ее подходящим образом. Виды информации, подлежащей идентификации, должны быть указаны в модели перед началом процесса, поэтому весь процесс традиционного извлечения информации зависит от предметной области. IE разделен на следующие пять подзадач.

Распознавание названного объекта (NER)
Разрешение кореферента (CO)
Конструкция шаблонного элемента (ТЕ)
Построение шаблонных отношений (TR)
Создание шаблонного сценария (ST)

Задача распознавания именованного объекта — распознать и классифицировать все именованные объекты, содержащиеся в тексте (отнесение именованного объекта к заранее определенной категории). Это работает путем применения методов, основанных на грамматике, или статистических моделей.

Разрешение кореференции идентифицирует эквивалентные объекты, которые были распознаны NER, в тексте. Существует два соответствующих вида отношений эквивалентности. Первый относится к отношениям между двумя различными представленными объектами (например, IBM Europe и IBM), а второй — к отношениям между объектом и их анафорическими ссылками (например, он и IBM). Оба вида можно распознать по разрешению кореференции.

При построении элемента шаблона система IE идентифицирует описательные свойства объектов, распознаваемые NER и CO. Эти свойства соответствуют обычным качествам, таким как красный или большой.

Конструкция отношения шаблона идентифицирует отношения, существующие между элементами шаблона. Эти отношения могут быть нескольких видов, например «работает для» или «расположен в», с тем ограничением, что и домен, и диапазон соответствуют сущностям.

В шаблонном сценарии производственные события, описанные в тексте, будут идентифицированы и структурированы относительно сущностей, распознаваемых NER и CO, и отношений, идентифицируемых TR.

Извлечение информации на основе онтологий (OBIE)

Извлечение информации на основе онтологий ^[10] — это подобласть извлечения информации, в которой по крайней мере одна онтология используется для управления процессом извлечения информации из текста на естественном языке. Система OBIE использует методы традиционного извлечения информации для идентификации концепций , экземпляров и отношений используемых онтологий в тексте, которые после процесса будут структурированы в онтологию. Таким образом, входные онтологии составляют модель информации, подлежащей извлечению. ^[21]

Обучение онтологии (OL)

Обучение онтологии — это автоматическое или полуавтоматическое создание онтологий, включая извлечение терминов соответствующей предметной области из текста на естественном языке. Поскольку построение онтологий вручную чрезвычайно трудоемко и занимает много времени, существует большая мотивация автоматизировать этот процесс.

Семантическая аннотация (СА)

Во время семантической аннотации ^[22] текст на естественном языке дополняется метаданными (часто представленными в RDFa ), что должно сделать семантику содержащихся в нем терминов машинопонятной. В этом процессе, который обычно является полуавтоматическим, знания извлекаются в том смысле, что устанавливается связь между лексическими терминами и, например, понятиями из онтологий. Таким образом получаются знания, какое значение термина в обрабатываемом контексте имелось в виду и, следовательно, смысл текста основывается на машиночитаемых данных с возможностью делать выводы. Семантическая аннотация обычно разбивается на следующие две подзадачи.

На уровне извлечения терминологии из текста извлекаются лексические термины. Для этого токенизатор сначала определяет границы слов и разгадывает сокращения. После этого термины из текста, соответствующие понятию, извлекаются с помощью предметно-специфичного словаря для их связывания при связывании сущностей.

При связывании сущностей ^[23] устанавливается связь между извлеченными лексическими терминами из исходного текста и понятиями из онтологии или базы знаний, такой как DBpedia . Для этого с помощью лексикона выявляются понятия-кандидаты, соответствующие нескольким значениям термина. Наконец, контекст терминов анализируется, чтобы определить наиболее подходящее значение и соотнести термин с правильным понятием.

Обратите внимание, что «семантическую аннотацию» в контексте извлечения знаний не следует путать с семантическим анализом , который понимается при обработке естественного языка (также называемый «семантической аннотацией»): целью семантического анализа является полное, машиночитаемое представление естественного языка. , тогда как семантическая аннотация в смысле извлечения знаний затрагивает лишь очень элементарный аспект этого процесса.

Инструменты

Следующие критерии можно использовать для классификации инструментов, извлекающих знания из текста на естественном языке.

В следующей таблице описаны некоторые инструменты для извлечения знаний из источников на естественном языке.

Открытие знаний

Обнаружение знаний описывает процесс автоматического поиска в больших объемах данных шаблонов, которые можно считать знаниями о данных. ^[44] Его часто описывают как получение знаний из входных данных. Обнаружение знаний развилось из области интеллектуального анализа данных и тесно связано с ней как с точки зрения методологии, так и с точки зрения терминологии. ^[45]

Наиболее известной отраслью интеллектуального анализа данных является обнаружение знаний, также известное как обнаружение знаний в базах данных (KDD). Как и многие другие формы открытия знаний, он создает абстракции входных данных. Знания , полученные в ходе этого процесса, могут стать дополнительными данными , которые можно использовать для дальнейшего использования и открытий. Часто результаты открытия знаний не являются практически осуществимыми. Обнаружение действенных знаний , также известное как интеллектуальный анализ данных на основе предметной области , ^[46] направлено на обнаружение и предоставление практических знаний и идей.

Другое многообещающее применение обнаружения знаний находится в области модернизации программного обеспечения , обнаружения слабых мест и обеспечения соответствия требованиям, что предполагает понимание существующих артефактов программного обеспечения. Этот процесс связан с концепцией обратного проектирования . Обычно знания, полученные с помощью существующего программного обеспечения, представлены в виде моделей, к которым при необходимости можно делать конкретные запросы. Отношения сущностей — это распространенный формат представления знаний, полученных из существующего программного обеспечения. Группа управления объектами (OMG) разработала спецификацию «Метамодель обнаружения знаний» (KDM), которая определяет онтологию для программных активов и их взаимосвязей с целью обнаружения знаний в существующем коде. Обнаружение знаний из существующих программных систем, также известное как интеллектуальный анализ программного обеспечения , тесно связано с интеллектуальным анализом данных , поскольку существующие артефакты программного обеспечения содержат огромную ценность для управления рисками и ценность для бизнеса , что является ключевым моментом для оценки и развития программных систем. Вместо анализа отдельных наборов данных программный анализ фокусируется на метаданных , таких как потоки процессов (например, потоки данных, потоки управления и карты вызовов), архитектура, схемы баз данных и бизнес-правила/термины/процессы.

Входные данные

Выходные форматы

Смотрите также

дальнейшее чтение

Чикко, Д; Массероли, М (2016). «Прогнозирование на основе онтологий и приоритезация функциональных аннотаций генов». Транзакции IEEE/ACM по вычислительной биологии и биоинформатике . 13 (2): 248–260. дои : 10.1109/TCBB.2015.2459694. PMID 27045825. S2CID 2795344.