Семантическая сеть

Семантическая сеть , иногда известная как Web 3.0 (не путать с Web3 ), является расширением Всемирной паутины посредством стандартов ^[1] , установленных Консорциумом Всемирной паутины (W3C). Цель семантической сети — сделать данные Интернета машиночитаемыми.

Чтобы обеспечить кодирование семантики данных, используются такие технологии, как Resource Description Framework (RDF) ^[2] и Web Ontology Language (OWL) ^{[3] .}Эти технологии используются для формального представления метаданных . Например, онтология может описывать концепции , отношения между сущностями и категориями вещей. Эта встроенная семантика предлагает значительные преимущества, такие как анализ данных и работа с разнородными источниками данных. ^[4]

Эти стандарты продвигают общие форматы данных и протоколы обмена в Интернете, в основном RDF. По мнению W3C, «Семантическая сеть обеспечивает общую структуру, которая позволяет совместно использовать и повторно использовать данные в рамках приложений, предприятий и сообществ». ^[5] Таким образом, семантическая сеть рассматривается как интегратор различных контентных и информационных приложений и систем.

Этот термин был придуман Тимом Бернерсом-Ли для обозначения сети данных (или сети данных ) ^[6] , которая может обрабатываться машинами ^[7] — то есть такой, в которой большая часть значений является машиночитаемой . Хотя критики ставят под сомнение ее осуществимость, сторонники утверждают, что применение в библиотечной и информационной науке , промышленности, биологии и исследованиях в области гуманитарных наук уже доказало обоснованность первоначальной концепции. ^[8]

Бернерс-Ли первоначально выразил свое видение семантической сети в 1999 году следующим образом:

У меня есть мечта о Сети, [в которой компьютеры] смогут анализировать все данные в сети – контент, ссылки и транзакции между людьми и компьютерами. «Семантическая сеть», которая сделает это возможным, еще не появилась, но когда она появится, повседневными механизмами торговли, бюрократии и нашей повседневной жизни будут управлять машины, разговаривающие с машинами. « Интеллектуальные агенты », которых люди рекламировали на протяжении веков, наконец-то материализуются. ^[9]

В статье Бернерса-Ли, Хендлера и Лассилы в журнале Scientific American 2001 года описывается ожидаемая эволюция существующей сети к семантической сети. ^[10] В 2006 году Бернерс-Ли и его коллеги заявили, что: «Эта простая идея… остается по большей части нереализованной». ^[11] В 2013 году более четырех миллионов веб-доменов (из примерно 250 миллионов) содержали разметку семантической сети. ^[12]

Пример

В следующем примере текст «Пауль Шустер родился в Дрездене» на веб-сайте будет снабжен аннотацией, связывающей человека с местом его рождения. Следующий фрагмент HTML показывает, как описывается небольшой граф в синтаксисе RDFa с использованием словаря Schema.org и идентификатора Wikidata :

< div  vocab = "https://schema.org/"  typeof = "Person" >  < span  property = "name" > Пол Шустер </ span > родился в < span  property = "birthPlace"  typeof = "Place"  href = "https://www.wikidata.org/entity/Q1731" >  < span  property = "name" > Дрезден </ span > . </span> </div>

В примере определяются следующие пять троек (показаны в синтаксисе Turtle ). Каждая тройка представляет одно ребро в результирующем графе: первый элемент тройки ( субъект ) — это имя узла, в котором начинается ребро, второй элемент ( предикат ) — тип ребра, а последний и третий элемент ( объект ) либо имя узла, где заканчивается ребро, либо буквальное значение (например, текст, число и т. д.).

 _ : a  <https://www.w3.org/1999/02/22-rdf-syntax-ns#type>  <https://schema.org/Person>  .  _ : < https://schema.org/name  >  «Пол Шустер»  .  _ : < https://schema.org/birthPlace  >  <https://www.wikidata.org/entity/Q1731>  .  <https://www.wikidata.org/entity/Q1731>  <https://schema.org/itemtype>  <https://schema.org/Place>  .  <https://www.wikidata.org/entity/Q1731>  <https://schema.org/name>  «Дрезден»  .

Тройки приводят к графу, показанному на данном рисунке.

Одним из преимуществ использования унифицированных идентификаторов ресурсов (URI) является то, что их можно разыменовать с помощью протокола HTTP . Согласно так называемым принципам связанных открытых данных , такой разыменованный URI должен привести к созданию документа, который предлагает дополнительные данные о данном URI. В этом примере все URI, как для ребер, так и для узлов (например http://schema.org/Person, http://schema.org/birthPlace, http://www.wikidata.org/entity/Q1731), могут быть разыменованы, что приведет к созданию дальнейших графов RDF, описывающих URI, например, что Дрезден — это город в Германии или что человек в смысле этот URI может быть вымышленным.

Второй график показывает предыдущий пример, но теперь дополнен несколькими тройками из документов, полученными в результате разыменования https://schema.org/Person(зеленый край) и https://www.wikidata.org/entity/Q1731(синие края).

В дополнение к ребрам, явно заданным в соответствующих документах, ребра могут быть автоматически выведены: тройка

 _ : a  <https://www.w3.org/1999/02/22-rdf-syntax-ns#type>  <http://schema.org/Person>  .

из исходного фрагмента RDFa и тройки

 <https://schema.org/Person>  <http://www.w3.org/2002/07/owl#equivantClass>  <http://xmlns.com/foaf/0.1/Person>  .

из документа https://schema.org/Person(зеленый край на рисунке) позволяют вывести следующую тройку, учитывая семантику OWL (красная пунктирная линия на втором рисунке):

 _ : a  <https://www.w3.org/1999/02/22-rdf-syntax-ns#type>  <http://xmlns.com/foaf/0.1/Person>  .

Фон

Концепция модели семантической сети была сформирована в начале 1960-х годов такими исследователями, как ученый-когнитивист Аллан М. Коллинз , лингвист М. Росс Куиллиан и психолог Элизабет Ф. Лофтус, как форма представления семантически структурированных знаний. При применении в контексте современного Интернета он расширяет сеть гиперссылок, удобочитаемых человеком веб-страниц , вставляя машиночитаемые метаданные о страницах и о том, как они связаны друг с другом. Это позволяет автоматическим агентам более интеллектуально получать доступ к Интернету и выполнять больше задач от имени пользователей. Термин «Семантическая сеть» был придуман Тимом Бернерсом-Ли , ^[7] изобретателем Всемирной паутины и директором Консорциума Всемирной паутины (« W3C »), который курирует разработку предлагаемых стандартов семантической паутины. Он определяет семантическую сеть как «сеть данных, которые могут обрабатываться машинами прямо или косвенно».

Многие из технологий, предложенных W3C, уже существовали до того, как они были позиционированы под эгидой W3C. Они используются в различных контекстах, особенно в тех, которые связаны с информацией, которая охватывает ограниченную и определенную область, и где обмен данными является общей необходимостью, например, научные исследования или обмен данными между предприятиями. Кроме того, появились и другие технологии с аналогичными целями, например микроформаты .

Ограничения HTML

Многие файлы на обычном компьютере также можно условно разделить на документы, читаемые человеком, и данные, читаемые компьютером. Такие документы, как почтовые сообщения, отчеты и брошюры, читаются людьми. Данные, такие как календари, адресные книги, списки воспроизведения и электронные таблицы, представляются с помощью прикладной программы, которая позволяет их просматривать, искать и комбинировать.

В настоящее время Всемирная паутина основана главным образом на документах, написанных на языке гипертекстовой разметки (HTML), соглашении о разметке, которое используется для кодирования текста с вкраплениями мультимедийных объектов, таких как изображения и интерактивные формы. Теги метаданных предоставляют метод, с помощью которого компьютеры могут классифицировать содержимое веб-страниц. В приведенных ниже примерах именам полей «ключевые слова», «описание» и «автор» присвоены такие значения, как «вычисления», «дешевые виджеты на продажу» и «Джон Доу».

< meta  name = "keywords"  content = "вычисления, компьютерные исследования, компьютер"  /> < meta  name = "description"  content = "Дешевые виджеты на продажу"  /> < meta  name = "author"  content = "Джон Доу"  / >

Благодаря такой маркировке и категоризации метаданных другие компьютерные системы, желающие получить доступ к этим данным и поделиться ими, могут легко идентифицировать соответствующие значения.

С помощью HTML и инструмента для его отображения (возможно, программного обеспечения веб-браузера , возможно, другого пользовательского агента ) можно создать и представить страницу со списком товаров, выставленных на продажу. HTML-код этой страницы каталога может содержать простые утверждения на уровне документа, такие как «Название этого документа — «Widget Superstore » », но в самом HTML-коде нет возможности однозначно утверждать, что, например, номер позиции X586172 является кодом Acme. Gizmo с розничной ценой 199 евро или что это потребительский товар. Скорее, HTML может только сказать, что диапазон текста «X586172» должен быть расположен рядом с «Acme Gizmo», «199 евро» и т. д. Невозможно сказать «это каталог» или даже установить, что «Acme Gizmo» — это своего рода титул, а «199 евро» — это цена. Также невозможно выразить, что эти фрагменты информации связаны вместе при описании отдельного элемента, отличного от других элементов, возможно, перечисленных на странице.

Семантический HTML относится к традиционной практике HTML, заключающейся в разметке в соответствии с намерением, а не непосредственном указании деталей макета. Например, использование обозначения <em>«акцент», а не <i>, которое обозначает курсив . Детали макета оставляются на усмотрение браузера в сочетании с каскадными таблицами стилей . Но эта практика не позволяет определить семантику таких объектов, как предметы для продажи или цены.

Микроформаты расширяют синтаксис HTML для создания машиночитаемой семантической разметки объектов, включая людей, организации, события и продукты. ^[13] Подобные инициативы включают RDFa , Microdata и Schema.org .

Семантические веб-решения

Семантическая сеть продвигает решение еще дальше. Он включает публикацию на языках, специально предназначенных для данных: структура описания ресурсов (RDF), язык веб-онтологии (OWL) и расширяемый язык разметки ( XML ). HTML описывает документы и связи между ними. RDF, OWL и XML, напротив, могут описывать произвольные вещи, такие как люди, встречи или части самолета.

Эти технологии объединяются для предоставления описаний, которые дополняют или заменяют содержимое веб-документов. Таким образом, контент может проявляться в виде описательных данных, хранящихся в базах данных , доступных через Интернет , ^[14] или в виде разметки внутри документов (в частности, в расширяемом HTML ( XHTML ) с вкраплениями XML, или, что чаще, исключительно в XML, с макетом или рендерингом. сигналы хранятся отдельно). Машиночитаемые описания позволяют менеджерам контента добавлять смысл к контенту, т. е. описывать структуру наших знаний об этом контенте. Таким образом, машина может обрабатывать знания сама, а не текст, используя процессы, аналогичные человеческим дедуктивным рассуждениям и выводам , тем самым получая более значимые результаты и помогая компьютерам выполнять автоматизированный сбор информации и исследования.

Пример тега, который будет использоваться на несемантической веб-странице:

<item> блог </item>

Кодирование аналогичной информации на семантической веб-странице может выглядеть следующим образом:

<item rdf:about= "https://example.org/semantic-web/" > Семантическая сеть </item>

Тим Бернерс-Ли называет получившуюся сеть связанных данных гигантским глобальным графом , в отличие от Всемирной паутины на основе HTML. Бернерс-Ли утверждает, что если в прошлом был обмен документами, то будущее — это обмен данными . Его ответ на вопрос «как» содержит три пункта наставления. Во-первых, URL-адрес должен указывать на данные. Во-вторых, любой, кто обращается к URL-адресу, должен получить данные обратно. В-третьих, связи в данных должны указывать на дополнительные URL-адреса с данными.

Теги и идентификаторы

Теги , включая иерархические категории и теги, которые добавляются и поддерживаются совместно (например, с помощью фолксономии ), могут рассматриваться как часть потенциального использования или шаг к семантической концепции Интернета. ^[15]^[16]^[17]

Уникальные идентификаторы , включая иерархические категории и совместно добавляемые категории, инструменты анализа (например, алгоритмы scite.ai) ^[18] и метаданные , включая теги, могут использоваться для создания форм семантических сетей – сетей, которые в определенной степени являются семантическими. В частности, это использовалось для структурирования научных исследований, в том числе по темам исследований и научным областям , в проектах OpenAlex , ^[19]^[20]^[21] Wikidata и Scholia , которые находятся в стадии разработки и предоставляют API , веб-страницы, каналы и графики. для различных смысловых запросов .

Веб 3.0

Тим Бернерс-Ли описал семантическую сеть как компонент Web 3.0. ^[22]

Люди продолжают спрашивать, что такое Web 3.0. Я думаю, возможно, когда у вас будет наложение масштабируемой векторной графики – все колеблется, складывается и выглядит туманным – в Web 2.0 и доступ к семантической сети, интегрированной в огромное пространство данных, вы получите доступ к невероятному ресурсу данных. …
- Тим Бернерс-Ли, 2006 г.

«Семантическая сеть» иногда используется как синоним «Веб 3.0» ^[23] , хотя определения каждого термина различаются.

Проблемы

Некоторые из проблем семантической сети включают обширность, неопределенность, неопределенность, непоследовательность и обман. Автоматизированным системам рассуждения придется иметь дело со всеми этими проблемами, чтобы реализовать обещания семантической сети.

Обширность: Всемирная паутина содержит многие миллиарды страниц. Одна только онтология медицинской терминологии SNOMED CT содержит 370 000 названий классов , а существующие технологии пока не способны устранить все семантически дублированные термины. Любой автоматизированной системе рассуждения придется иметь дело с действительно огромными входными данными.
Неясность: это неточные понятия, такие как «молодой» или «высокий». Это возникает из-за неясности пользовательских запросов, концепций, представленных поставщиками контента, соответствия терминов запроса терминам поставщика и попыток объединить различные базы знаний с пересекающимися, но слегка разными концепциями. Нечеткая логика — наиболее распространенный метод борьбы с неопределенностью.
Неопределенность: это точные понятия с неопределенными значениями. Например, у пациента может быть набор симптомов, которые соответствуют множеству различных диагнозов, каждый из которых имеет разную вероятность. Вероятностные методы рассуждения обычно используются для устранения неопределенности.
Непоследовательность: это логические противоречия, которые неизбежно возникнут при разработке больших онтологий, а также при объединении онтологий из отдельных источников. Дедуктивные рассуждения терпят катастрофические неудачи, когда сталкиваются с противоречием, поскольку «из противоречия вытекает все» . Оправданные рассуждения и паранепротиворечивые рассуждения — это два метода, которые можно использовать для борьбы с несогласованностью.
Обман: это когда производитель информации намеренно вводит в заблуждение потребителя информации. В настоящее время для устранения этой угрозы используются методы криптографии . Однако, предоставляя средства для определения целостности информации, в том числе той, которая касается личности лица, создавшего или опубликовавшего информацию, вопросы достоверности по-прежнему необходимо решать в случаях потенциального обмана.

Этот список проблем является скорее иллюстративным, чем исчерпывающим, и он сосредоточен на проблемах слоев «объединяющей логики» и «доказательства» семантической сети. В итоговом отчете Инкубационной группы по обоснованию неопределенности для Всемирной паутины Консорциума Всемирной паутины (W3C) ^[24] (URW3-XG) эти проблемы объединены под единым заголовком «неопределенность». ^[25] Многие из упомянутых здесь методов потребуют расширений языка веб-онтологий (OWL), например, для аннотирования условных вероятностей. Это область активных исследований. ^[26]

Стандарты

Стандартизацией семантической сети в контексте Web 3.0 занимается W3C. ^[27]

Компоненты

Термин «Семантическая сеть» часто используется более конкретно для обозначения форматов и технологий, которые ее обеспечивают. ^[5] Сбор, структурирование и восстановление связанных данных обеспечиваются технологиями, которые обеспечивают формальное описание концепций, терминов и отношений в пределах данной области знаний . Эти технологии определены как стандарты W3C и включают в себя:

Структура описания ресурсов (RDF), общий метод описания информации.
Схема RDF (RDFS)
Простая система организации знаний (СКОС)
SPARQL , язык запросов RDF.
Notation3 (N3), разработанный с учетом удобства чтения человеком.
N-Triples — формат хранения и передачи данных.
Черепаха (краткий тройной язык RDF)
Язык веб-онтологии (OWL), семейство языков представления знаний.
Формат обмена правилами (RIF), структура диалектов языка веб-правил, поддерживающая обмен правилами в Интернете.
Нотация объектов JavaScript для связанных данных (JSON-LD), метод описания данных на основе JSON.
ActivityPub — универсальный способ взаимодействия клиента и сервера друг с другом. Это использует популярная децентрализованная социальная сеть Mastodon .

Стек семантической сети иллюстрирует архитектуру семантической сети. Функции и взаимоотношения компонентов можно резюмировать следующим образом: ^[28]

XML предоставляет элементарный синтаксис для структуры контента в документах, но не связывает семантику со значением содержащегося в нем контента. XML в настоящее время не является необходимым компонентом технологий семантической паутины в большинстве случаев, поскольку существуют альтернативные синтаксисы, такие как Turtle . Turtle является стандартом де-факто, но не прошел формальный процесс стандартизации.
XML-схема — это язык для предоставления и ограничения структуры и содержимого элементов, содержащихся в документах XML.
RDF — это простой язык для выражения моделей данных , которые относятся к объектам (« веб-ресурсам ») и их отношениям. Модель на основе RDF может быть представлена в различных синтаксисах, например, RDF/XML , N3, Turtle и RDFa. RDF — это фундаментальный стандарт семантической сети. ^[29]^[30]
Схема RDF расширяет RDF и представляет собой словарь для описания свойств и классов ресурсов на основе RDF с семантикой для обобщенных иерархий таких свойств и классов.
OWL добавляет больше словаря для описания свойств и классов: среди прочего, отношения между классами (например, непересекаемость), кардинальность (например, «точно один»), равенство, более богатая типизация свойств, характеристики свойств (например, симметрия) и перечислимые классы.
SPARQL — это протокол и язык запросов для источников данных семантической сети.
RIF — это формат обмена правилами W3C. Это язык XML для выражения веб-правил, которые могут выполнять компьютеры. RIF предоставляет несколько версий, называемых диалектами. Он включает в себя диалект базовой логики RIF (RIF-BLD) и диалект правил производства RIF (RIF PRD).

Текущее состояние стандартизации

Устоявшиеся стандарты:

Еще не до конца реализовано:

Объединение слоев логики и доказательства
Язык правил семантической сети (SWRL)

Приложения

Цель состоит в том, чтобы повысить удобство использования и полезность Интернета и связанных с ним ресурсов путем создания семантических веб-сервисов , таких как:

Серверы, которые предоставляют существующие системы данных с использованием стандартов RDF и SPARQL. Существует множество конвертеров в RDF из разных приложений. ^[31] Реляционные базы данных являются важным источником. Семантический веб-сервер подключается к существующей системе, не влияя на ее работу.
Документы, «размеченные» семантической информацией ( расширение HTML- <meta> тегов , используемых на современных веб-страницах для предоставления информации поисковым системам , использующим веб-сканеры ). Это может быть понятная машине информация о понятном человеку содержании документа (например, создатель, название, описание и т. д.) или это могут быть чисто метаданные, представляющие набор фактов (например, ресурсы и услуги в других местах сайта). ). Обратите внимание: все , что можно идентифицировать с помощью универсального идентификатора ресурса (URI), можно описать, поэтому семантическая сеть может рассуждать о животных, людях, местах, идеях и т. д. В документах HTML можно использовать четыре формата семантических аннотаций; Микроформат, RDFa, микроданные и JSON-LD . ^[32] Семантическая разметка часто создается автоматически, а не вручную.

Общие словари метаданных ( онтологии ) и карты между словарями, которые позволяют создателям документов знать, как размечать свои документы, чтобы агенты могли использовать информацию в предоставленных метаданных (так что Автор в смысле «Автор страницы» не будет путать с «Автором» в смысле книги, являющейся предметом рецензии на книгу).
Автоматизированные агенты для выполнения задач для пользователей семантической сети с использованием этих данных.
Семантический перевод . Альтернативным или дополнительным подходом являются улучшения контекстуального и семантического понимания текстов – этому можно помочь с помощью методов семантической сети, чтобы при ручном или полуавтоматическом постредактировании нужно было исправлять лишь все меньшее количество неправильных переводов .
Веб-службы (часто с собственными агентами) для предоставления информации конкретно агентам, например, служба доверия , которую агент может запросить, если какой-либо интернет-магазин имеет историю плохого обслуживания или рассылки спама .
Идеи семантической сети реализуются на сайтах совместного структурированного отображения аргументов , где их отношения организованы семантически, аргументы могут быть зеркально отображены (связаны) в нескольких местах, повторно использованы (копированы), оценены и изменены как семантически отдельные единицы. Идеи такой или более широко распространенной «Всемирной сети аргументов» восходят как минимум к 2007 году ^[33] и были в некоторой степени реализованы в Аргумане ^[34] и Киало . Дальнейшие шаги в направлении семантических веб-сервисов могут включать в себя включение «запросов», поисковых систем аргументов ^[35] и «обобщение спорных и согласованных моментов обсуждения». ^[36]

Такие услуги могут быть полезны для общедоступных поисковых систем или могут использоваться для управления знаниями внутри организации. Бизнес-приложения включают в себя:

Содействие интеграции информации из смешанных источников ^[37]
Устранение двусмысленностей в корпоративной терминологии
Улучшение поиска информации , тем самым уменьшая информационную перегрузку и повышая точность и точность получаемых данных ^[38]^[39]^[40]^[41]
Определение соответствующей информации относительно данного домена ^[42]
Оказание поддержки в принятии решений

В корпорации существует закрытая группа пользователей, и руководство может обеспечивать соблюдение правил компании, таких как принятие определенных онтологий и использование семантических аннотаций . По сравнению с общедоступной семантической сетью требования к масштабируемости меньшие , и в целом информации, циркулирующей внутри компании, можно доверять больше; конфиденциальность не является проблемой, если не считать обработки данных клиентов.

Скептические реакции

Практическая осуществимость

Критики подвергают сомнению принципиальную возможность полной или даже частичной реализации Семантической сети, указывая как на трудности ее настройки, так и на отсутствие универсальной полезности, которая не позволяет вложить необходимые усилия. В статье 2003 года Маршалл и Шипман указывают на когнитивные издержки, присущие формализации знаний по сравнению с созданием традиционного веб- гипертекста : ^[43]

Хотя изучение основ HTML относительно просто, изучение языка или инструмента представления знаний требует от автора изучения методов абстракции представления и их влияния на рассуждения. Например, понимание отношений класса-экземпляра или отношений суперкласса-подкласса — это больше, чем понимание того, что одна концепция является «типом» другой концепции. [...] Эти абстракции преподаются ученым-компьютерщикам в целом и инженерам по знаниям в частности, но они не соответствуют аналогичному значению на естественном языке, когда речь идет о «типе» чего-либо. Эффективное использование такого формального представления требует от автора стать квалифицированным инженером по знаниям в дополнение к любым другим навыкам, необходимым для предметной области. [...] После того, как кто-то выучил формальный язык представления, часто приходится прилагать гораздо больше усилий для выражения идей в этом представлении, чем в менее формальном представлении [...]. Действительно, это форма программирования, основанная на объявлении семантических данных и требующая понимания того, как алгоритмы рассуждения будут интерпретировать созданные структуры.

По мнению Маршалла и Шипмана, неявная и изменяющаяся природа многих знаний усугубляет проблему инженерии знаний и ограничивает применимость семантической сети в конкретных областях. Еще одна проблема, на которую они указывают, — это способы выражения знаний, специфичные для предметной области или организации, которые должны быть решены посредством соглашения сообщества, а не только техническими средствами. ^[43] Как выяснилось, специализированные сообщества и организации для внутрифирменных проектов имеют тенденцию применять семантические веб-технологии в большей степени, чем периферийные и менее специализированные сообщества. ^[44] Практические ограничения на внедрение оказались менее сложными там, где сфера применения и масштабы более ограничены, чем у широкой публики и Всемирной паутины. ^[44]

Наконец, Маршалл и Шипман видят прагматические проблемы в идее интеллектуальных агентов ( в стиле «Навигатора знаний »), работающих в семантической сети, курируемой в основном вручную: ^[43]

В ситуациях, когда потребности пользователей известны и распределенные информационные ресурсы хорошо описаны, этот подход может быть весьма эффективным; В непредвиденных ситуациях, которые объединяют неожиданный массив информационных ресурсов, подход Google оказывается более надежным. Более того, семантическая сеть опирается на более хрупкие цепочки вывода; недостающий элемент цепочки приводит к невозможности выполнить желаемое действие, в то время как человек может дополнить недостающие части, используя подход, более похожий на Google. [...] соотношение затрат и выгод может работать в пользу специально созданных метаданных семантической сети, направленных на объединение разумных, хорошо структурированных информационных ресурсов, специфичных для конкретной предметной области; Пристальное внимание к потребностям пользователей/заказчиков будет способствовать успеху этих федераций.

Критика Кори Доктороу (« метадерьмо ») ^[45] проводится с точки зрения человеческого поведения и личных предпочтений. Например, люди могут включать в веб-страницы ложные метаданные, пытаясь ввести в заблуждение механизмы семантической паутины, которые наивно предполагают достоверность метаданных. Это явление было хорошо известно благодаря метатегам, которые обманом заставили алгоритм ранжирования Altavista повысить рейтинг определенных веб-страниц: индексная система Google специально выявляет такие попытки манипуляции. Питер Герденфорс и Тимо Хонкела отмечают, что основанные на логике технологии семантической сети охватывают лишь часть соответствующих явлений, связанных с семантикой. ^[46]^[47]

Цензура и конфиденциальность

Энтузиазм по поводу семантической сети может быть умерен опасениями по поводу цензуры и конфиденциальности . Например, методы анализа текста теперь можно легко обойти, используя другие слова, например метафоры, или используя изображения вместо слов. Передовая реализация семантической сети значительно облегчила бы правительствам контроль над просмотром и созданием онлайн-информации, поскольку эту информацию было бы намного легче понять автоматической машине, блокирующей контент. Кроме того, также поднимался вопрос о том, что при использовании файлов FOAF и метаданных геолокации будет очень мало анонимности, связанной с авторством статей о таких вещах, как личный блог. Некоторые из этих проблем были решены в проекте «Policy Aware Web» ^[48] и являются активной темой исследований и разработок.

Удвоение форматов вывода

Другая критика семантической сети заключается в том, что создание и публикация контента потребует гораздо больше времени, поскольку для одного фрагмента данных потребуется два формата: один для просмотра людьми, а другой для машин. Однако многие разрабатываемые веб-приложения решают эту проблему путем создания машиночитаемого формата после публикации данных или запроса таких данных от машины. Одной из реакций на такого рода критику стало развитие микроформатов. Еще одним аргументом в защиту осуществимости семантической сети является вероятное падение цен на задачи человеческого интеллекта на цифровых рынках труда, таких как Mechanical Turk от Amazon . ^[^{нужна цитата}^]

Такие спецификации, как eRDF и RDFa, позволяют встраивать произвольные данные RDF в страницы HTML. Механизм GRDDL (Gleaning Resource Descriptions from Dialects of Language) позволяет автоматически интерпретировать существующие материалы (включая микроформаты) как RDF, поэтому издателям нужно использовать только один формат, например HTML.

Исследовательская деятельность по корпоративным приложениям

Первой исследовательской группой, специально сосредоточившейся на корпоративной семантической сети, была команда ACACIA в INRIA-София-Антиполис , основанная в 2002 году. Результаты их работы включают поисковую систему Corese ^[49] на основе RDF(S) и применение семантической сети. технологии в области распределенного искусственного интеллекта для управления знаниями (например, онтологии и мультиагентные системы для корпоративной семантической сети) ^[50] и электронного обучения . ^[51]

С 2008 года исследовательская группа корпоративной семантической сети, расположенная в Свободном университете Берлина , занимается строительными блоками: корпоративным семантическим поиском, корпоративным семантическим сотрудничеством и разработкой корпоративной онтологии. ^[52]

Инженерные исследования онтологии включают в себя вопрос о том, как привлечь неопытных пользователей к созданию онтологий и семантически аннотированного контента ^[53], а также к извлечению явных знаний из взаимодействия пользователей внутри предприятий.

Будущее приложений

Тим О'Рейли , придумавший термин Web 2.0, предложил долгосрочное видение семантической сети как сети данных, в которой сложные приложения перемещаются по ней и манипулируют ею. ^[54] Сеть данных преобразует Всемирную паутину из распределенной файловой системы в распределенную базу данных . ^[55]

Смотрите также

дальнейшее чтение

Лиян Юй (14 декабря 2014 г.). Руководство разработчика по семантической сети, 2-е изд. Спрингер. ISBN 978-3-662-43796-4.
«Программируемая сеть» Аарона Шварца: незаконченная работа, подаренная издательством Morgan & Claypool Publishers после смерти Аарона Шварца в январе 2013 года.
Григорис Антониу, Франк ван Хармелен (31 марта 2008 г.). Учебник по семантической сети, 2-е издание . Массачусетский технологический институт Пресс . ISBN 978-0-262-01242-3.
Аллеманг, Дин; Хендлер, Джеймс; Гандон, Фабьен (3 августа 2020 г.). Семантическая сеть для рабочего онтолога: эффективное моделирование связанных данных, RDFS и OWL (Третье изд.). [Нью-Йорк, Нью-Йорк, США]: ACM Books; 3-е издание. ISBN 978-1450376143.
Паскаль Хитцлер ; Маркус Крёч; Себастьян Рудольф (25 августа 2009 г.). Основы семантических веб-технологий. CRCPress. ISBN 978-1-4200-9050-5.
Томас Б. Пассен (1 марта 2004 г.). Руководство исследователя по семантической сети . Публикации Мэннинга. ISBN 978-1-932394-20-7.
Джеффри Т. Поллок (23 марта 2009 г.). Семантическая сеть для чайников . Для начинающих, для "чайников. ISBN 978-0-470-39679-7.
Хитцлер, Паскаль (февраль 2021 г.). «Обзор поля семантической сети». Коммуникации АКМ . 64 (2): 76–83. дои : 10.1145/3397512 .
Унни, Дипак (март 2023 г.). «FAIRification данных, связанных со здоровьем, с использованием семантических веб-технологий в Швейцарской сети персонализированного здоровья». Научные данные о природе . 10 (1): 127. Бибкод : 2023NatSD..10..127T. дои : 10.1038/s41597-023-02028-y. ПМЦ 10006404 . ПМИД 36899064.

Внешние ссылки

У Схолии есть тематический профиль для Semantic Web .

Официальный веб-сайт