Semantic Web , иногда называемый Web 3.0 (не путать с Web3 ), является расширением World Wide Web посредством стандартов [1], установленных Консорциумом World Wide Web (W3C). Целью Semantic Web является сделать данные Интернета машиночитаемыми .
Для кодирования семантики с данными используются такие технологии, как Resource Description Framework (RDF) [2] и Web Ontology Language (OWL) [3] . Эти технологии используются для формального представления метаданных . Например, онтология может описывать концепции , отношения между сущностями и категории вещей. Эти встроенные семантики предлагают значительные преимущества, такие как рассуждения о данных и работа с гетерогенными источниками данных. [4] Эти стандарты продвигают общие форматы данных и протоколы обмена в Интернете, в основном RDF. Согласно W3C, «Семантическая сеть предоставляет общую структуру, которая позволяет совместно использовать данные и повторно использовать их в рамках приложений, предприятий и сообществ». [5] Поэтому семантическая сеть рассматривается как интегратор между различными контентными и информационными приложениями и системами.
Термин был придуман Тимом Бернерсом-Ли для сети данных (или сети данных ) [6] , которая может быть обработана машинами [7] — то есть, в которой большая часть смысла является машиночитаемой . Хотя его критики подвергают сомнению его осуществимость, сторонники утверждают, что приложения в библиотечном деле и информатике , промышленности, биологии и исследованиях в области гуманитарных наук уже доказали обоснованность первоначальной концепции. [8]
Бернерс-Ли в 1999 году впервые выразил свое видение семантической паутины следующим образом:
У меня есть мечта о Сети [в которой компьютеры] смогут анализировать все данные в Сети – контент, ссылки и транзакции между людьми и компьютерами. «Семантическая Сеть», которая сделает это возможным, еще не появилась, но когда это произойдет, повседневные механизмы торговли, бюрократии и нашей повседневной жизни будут управляться машинами, говорящими с машинами. « Интеллектуальные агенты », о которых люди говорят уже много лет, наконец-то материализуются. [9]
Статья Бернерса-Ли, Хендлера и Лассилы в журнале Scientific American 2001 года описала ожидаемую эволюцию существующей Сети в Семантический Веб. [10] В 2006 году Бернерс-Ли и его коллеги заявили, что: «Эта простая идея… остается в значительной степени нереализованной». [11] В 2013 году более четырех миллионов веб-доменов (из примерно 250 миллионов в целом) содержали разметку Семантического Веба. [12]
В следующем примере текст "Пол Шустер родился в Дрездене" на веб-сайте будет аннотирован, связывая человека с местом его рождения. Следующий фрагмент HTML показывает, как описывается небольшой граф в синтаксисе RDFa с использованием словаря schema.org и идентификатора Wikidata :
< div vocab = "https://schema.org/" typeof = "Person" > < span property = "name" > Пол Шустер </ span > родился в < span property = "birthPlace" typeof = "Place" href = "https://www.wikidata.org/entity/Q1731" > < span property = "name" > Дрездене </ span > . </ span > </ div >
В примере определяются следующие пять триплетов (показаны в синтаксисе Turtle ). Каждый триплет представляет одно ребро в результирующем графе: первый элемент триплета ( субъект ) — это имя узла, где начинается ребро, второй элемент (предикат ) — тип ребра, а последний и третий элементы ( объект ) — это либо имя узла, где заканчивается ребро, либо буквальное значение (например, текст, число и т. д.).
_ : a <https://www.w3.org/1999/02/22-rdf-syntax-ns#type> <https://schema.org/Person> . _ : a <https://schema.org/name> "Пол Шустер" . _ : a <https://schema.org/birthPlace> <https://www.wikidata.org/entity/Q1731> . <https://www.wikidata.org/entity/Q1731> <https://schema.org/itemtype> <https://schema.org/Place> . <https://www.wikidata.org/entity/Q1731> <https://schema.org/name> "Дрезден" .
Тройки дают график, показанный на данном рисунке.
Одним из преимуществ использования унифицированных идентификаторов ресурсов (URI) является то, что их можно разыменовать с помощью протокола HTTP . Согласно так называемым принципам связанных открытых данных , такой разыменованный URI должен привести к документу, который предлагает дополнительные данные о данном URI. В этом примере все URI, как для ребер, так и для узлов (например http://schema.org/Person
, , http://schema.org/birthPlace
, http://www.wikidata.org/entity/Q1731
), могут быть разыменованы и приведут к дополнительным RDF-графам, описывающим URI, например, что Дрезден — город в Германии, или что человек, в смысле этого URI, может быть вымышленным.
На втором графике показан предыдущий пример, но теперь он дополнен несколькими тройками из документов, которые возникают в результате разыменования https://schema.org/Person
(зеленый край) и https://www.wikidata.org/entity/Q1731
(синий край).
В дополнение к ребрам, указанным в соответствующих документах явно, ребра могут быть выведены автоматически: тройка
_ : < https://www.w3.org/1999/02/22-rdf-syntax-ns#type > <http://schema.org/Person> .
из исходного фрагмента RDFa и тройного
<https://schema.org/Person> <http://www.w3.org/2002/07/owl#equivantClass> <http://xmlns.com/foaf/0.1/Person> .
из документа https://schema.org/Person
(зеленый край на рисунке) можно вывести следующую тройку, учитывая семантику OWL (красная пунктирная линия на втором рисунке):
_ : <https://www.w3.org/1999/02/22-rdf-syntax-ns#type> < http://xmlns.com/foaf/0.1/Person> .
Концепция модели семантической сети была сформирована в начале 1960-х годов такими исследователями, как когнитивный ученый Аллан М. Коллинз , лингвист Росс Куиллиан и психолог Элизабет Ф. Лофтус , как форма представления семантически структурированных знаний. При применении в контексте современного Интернета она расширяет сеть гиперссылок, читаемых человеком, веб-страниц , вставляя машиночитаемые метаданные о страницах и о том, как они связаны друг с другом. Это позволяет автоматизированным агентам получать доступ к Интернету более разумно и выполнять больше задач от имени пользователей. Термин «Семантическая сеть» был придуман Тимом Бернерсом-Ли [7] , изобретателем Всемирной паутины и директором Консорциума Всемирной паутины (« W3C »), который курирует разработку предлагаемых стандартов Семантической сети. Он определяет Семантическая сеть как «сеть данных, которые могут обрабатываться машинами напрямую и косвенно».
Многие из технологий, предложенных W3C, уже существовали до того, как они были помещены под зонтик W3C. Они используются в различных контекстах, особенно тех, которые имеют дело с информацией, охватывающей ограниченную и определенную область, и где обмен данными является общей необходимостью, например, научные исследования или обмен данными между предприятиями. Кроме того, появились другие технологии со схожими целями, такие как микроформаты .
Многие файлы на типичном компьютере также можно условно разделить на документы, читаемые человеком, и данные, читаемые машиной. Такие документы, как почтовые сообщения, отчеты и брошюры, читаются людьми. Данные, такие как календари, адресные книги, плейлисты и электронные таблицы, представляются с помощью прикладной программы, которая позволяет просматривать их, искать и объединять.
В настоящее время Всемирная паутина в основном основана на документах, написанных на языке гипертекстовой разметки (HTML), соглашении о разметке, которое используется для кодирования текста, перемежаемого мультимедийными объектами, такими как изображения и интерактивные формы. Теги метаданных предоставляют метод, с помощью которого компьютеры могут классифицировать содержимое веб-страниц. В приведенных ниже примерах именам полей "keywords", "description" и "author" присвоены такие значения, как "computing", "cheap widgets for sale" и "John Doe".
< meta name = "keywords" content = "вычислительная техника, компьютерные исследования, компьютер" /> < meta name = "description" content = "Дешевые виджеты на продажу" /> < meta name = "author" content = "John Doe" />
Благодаря такой маркировке и категоризации метаданных другие компьютерные системы, желающие получить доступ к этим данным и поделиться ими, могут легко идентифицировать соответствующие значения.
С помощью HTML и инструмента для его отображения (возможно, программного обеспечения веб-браузера , возможно, другого пользовательского агента ) можно создать и представить страницу, на которой перечислены товары для продажи. HTML этой страницы каталога может делать простые утверждения на уровне документа, такие как «заголовок этого документа — „Widget Superstore “ », но в самом HTML нет возможности однозначно утверждать, что, например, номер товара X586172 — это Acme Gizmo с розничной ценой €199 или что это потребительский товар. Вместо этого HTML может только сказать, что текстовый фрагмент «X586172» — это то, что должно быть расположено рядом с «Acme Gizmo» и «€199» и т. д. Невозможно сказать «это каталог» или даже установить, что «Acme Gizmo» — это своего рода заголовок или что «€199» — это цена. Также нет способа выразить, что эти фрагменты информации связаны между собой, описывая отдельный элемент, отличный от других элементов, возможно, перечисленных на странице.
Семантический HTML относится к традиционной практике HTML, когда разметка следует за намерением, а не указывает детали макета напрямую. Например, использование <em>
обозначения «выделение» вместо <i>
, которое указывает курсив . Детали макета оставлены на усмотрение браузера в сочетании с каскадными таблицами стилей . Но эта практика не позволяет определить семантику таких объектов, как товары для продажи или цены.
Микроформаты расширяют синтаксис HTML для создания машиночитаемой семантической разметки об объектах, включая людей, организации, события и продукты. [13] Аналогичные инициативы включают RDFa , Microdata и Schema.org .
Semantic Web продвигает решение дальше. Он включает публикацию на языках, специально разработанных для данных: Resource Description Framework (RDF), Web Ontology Language (OWL) и Extensible Markup Language ( XML ). HTML описывает документы и связи между ними. RDF, OWL и XML, напротив, могут описывать произвольные вещи, такие как люди, встречи или детали самолетов.
Эти технологии объединяются для предоставления описаний, которые дополняют или заменяют содержимое веб-документов. Таким образом, содержимое может проявляться как описательные данные, хранящиеся в базах данных , доступных через Интернет , [14] или как разметка в документах (в частности, в расширяемом HTML ( XHTML ), перемежаемом с XML, или, чаще, чисто в XML, с макетом или подсказками рендеринга, хранящимися отдельно). Машиночитаемые описания позволяют менеджерам контента добавлять смысл к контенту, т. е. описывать структуру знаний, которые у нас есть об этом контенте. Таким образом, машина может обрабатывать само знание, а не текст, используя процессы, похожие на человеческие дедуктивные рассуждения и выводы , тем самым получая более значимые результаты и помогая компьютерам выполнять автоматизированный сбор информации и исследования.
Пример тега, который будет использоваться на несемантической веб-странице:
<item> блог </item>
Кодирование подобной информации на семантической веб-странице может выглядеть следующим образом:
<item rdf:about= "https://example.org/semantic-web/" > Семантическая паутина </item>
Тим Бернерс-Ли называет полученную сеть связанных данных Гигантским глобальным графом , в отличие от Всемирной паутины на основе HTML. Бернерс-Ли утверждает, что если прошлым был обмен документами, то будущим является обмен данными . Его ответ на вопрос «как» дает три пункта инструкций. Во-первых, URL должен указывать на данные. Во-вторых, любой, кто обращается к URL, должен получать данные обратно. В-третьих, связи в данных должны указывать на дополнительные URL с данными.
Теги , включая иерархические категории и теги, которые добавляются и поддерживаются совместно (например, с помощью фолксономии ), можно считать частью, потенциально используемой или шагом на пути к видению семантической паутины. [15] [16] [17]
Уникальные идентификаторы , включая иерархические категории и совместно добавленные, инструменты анализа (например, алгоритмы scite.ai) [18] и метаданные , включая теги, могут использоваться для создания форм семантических сетей – сетей, которые в определенной степени являются семантическими. В частности, это использовалось для структурирования научных исследований, в частности, по темам исследований и научным областям , проектами OpenAlex , [19] [20] [21] Wikidata и Scholia , которые находятся в стадии разработки и предоставляют API , веб-страницы, каналы и графики для различных семантических запросов .
Тим Бернерс-Ли описал семантическую паутину как компонент Web 3.0. [22]
Люди продолжают спрашивать, что такое Web 3.0. Я думаю, что, возможно, когда у вас будет наложение масштабируемой векторной графики – все рябит, сворачивается и выглядит туманным – на Web 2.0 и доступ к семантической сети, интегрированной в огромное пространство данных, у вас будет доступ к невероятному ресурсу данных…
— Тим Бернерс-Ли, 2006
«Семантическая паутина» иногда используется как синоним «Веб 3.0» [23] , хотя определение каждого термина различается.
Следующее поколение Интернета часто называют Web 4.0, но его определение неясно. Согласно некоторым источникам, это Интернет, который включает в себя искусственный интеллект , [24] Интернет вещей , всепроникающие вычисления , повсеместные вычисления и Веб вещей среди других концепций. [25] По данным Европейского Союза, Web 4.0 — это «ожидаемое четвертое поколение Всемирной паутины. Используя передовой искусственный и окружающий интеллект, Интернет вещей, доверенные транзакции блокчейна, виртуальные миры и возможности XR, цифровые и реальные объекты и среды полностью интегрированы и взаимодействуют друг с другом, обеспечивая по-настоящему интуитивный, захватывающий опыт, бесшовно смешивающий физический и цифровой миры». [26]
Некоторые из проблем для Semantic Web включают в себя обширность, неопределенность, несогласованность и обман. Автоматизированным системам рассуждений придется иметь дело со всеми этими проблемами, чтобы выполнить обещание Semantic Web.
Этот список проблем является скорее иллюстративным, чем исчерпывающим, и он фокусируется на проблемах «объединяющей логики» и «доказательств» слоев семантической паутины. Заключительный отчет Инкубационной группы Консорциума Всемирной паутины (W3C) по рассуждениям о неопределенности для Всемирной паутины [27] (URW3-XG) объединяет эти проблемы под одним заголовком «неопределенность». [28] Многие из упомянутых здесь методов потребуют расширения языка онтологии веб (OWL), например, для аннотирования условных вероятностей. Это область активных исследований. [29]
Стандартизация семантической паутины в контексте Web 3.0 находится под опекой W3C. [30]
Термин «Семантическая паутина» часто используется более конкретно для обозначения форматов и технологий, которые позволяют это сделать. [5] Сбор, структурирование и восстановление связанных данных обеспечиваются технологиями, которые предоставляют формальное описание концепций, терминов и отношений в рамках заданной области знаний . Эти технологии определены как стандарты W3C и включают в себя:
Стек семантической паутины иллюстрирует архитектуру семантической паутины. Функции и отношения компонентов можно суммировать следующим образом: [31]
Устоявшиеся стандарты:
Пока еще не полностью реализовано:
Цель состоит в том, чтобы повысить удобство использования и полезность Интернета и его взаимосвязанных ресурсов путем создания семантических веб-сервисов , таких как:
<meta>
тегов, используемых на современных веб-страницах для предоставления информации для поисковых систем с использованием веб-краулеров ). Это может быть понятная машине информация о понятном человеку содержании документа (такая как создатель, заголовок, описание и т. д.) или это могут быть чисто метаданные, представляющие набор фактов (таких как ресурсы и услуги в другом месте на сайте). Обратите внимание, что все , что может быть идентифицировано с помощью унифицированного идентификатора ресурса (URI), может быть описано, поэтому семантическая сеть может рассуждать о животных, людях, местах, идеях и т. д. Существует четыре формата семантических аннотаций, которые можно использовать в HTML-документах: микроформат, RDFa, микроданные и JSON-LD . [35] Семантическая разметка часто генерируется автоматически, а не вручную.Такие сервисы могут быть полезны для публичных поисковых систем или могут использоваться для управления знаниями в организации. Бизнес-приложения включают:
В корпорации есть закрытая группа пользователей, и руководство может применять руководящие принципы компании, такие как принятие определенных онтологий и использование семантической аннотации . По сравнению с общедоступной семантической сетью, здесь меньше требований к масштабируемости , а информация, циркулирующая внутри компании, в целом может быть более надежной; конфиденциальность не является проблемой за пределами обработки данных клиентов.
Критики подвергают сомнению основную осуществимость полного или даже частичного выполнения Семантической паутины, указывая как на трудности в ее настройке, так и на отсутствие универсальной полезности, что препятствует вложению требуемых усилий. В статье 2003 года Маршалл и Шипман указывают на когнитивные издержки, присущие формализации знаний, по сравнению с созданием традиционного веб- гипертекста : [46]
В то время как изучение основ HTML относительно просто, изучение языка или инструмента представления знаний требует от автора изучения методов абстракции представления и их влияния на рассуждения. Например, понимание отношений класс-экземпляр или отношений суперкласс-подкласс — это больше, чем понимание того, что одно понятие является «типом» другого понятия. [...] Эти абстракции преподаются компьютерным специалистам в целом и инженерам по знаниям в частности, но они не соответствуют аналогичному естественному языковому значению «типа» чего-либо. Эффективное использование такого формального представления требует от автора стать опытным инженером по знаниям в дополнение к любым другим навыкам, требуемым в данной области. [...] После того, как человек изучил язык формального представления, все еще часто гораздо больше усилий требуется для выражения идей в этом представлении, чем в менее формальном представлении [...]. Действительно, это форма программирования, основанная на объявлении семантических данных, и требует понимания того, как алгоритмы рассуждения будут интерпретировать созданные структуры.
По словам Маршалла и Шипмана, неявная и изменчивая природа многих знаний усугубляет проблему инженерии знаний и ограничивает применимость семантической паутины к определенным доменам. Еще одна проблема, на которую они указывают, — это специфичные для домена или организации способы выражения знаний, которые должны решаться посредством соглашения сообщества, а не только техническими средствами. [46] Как оказалось, специализированные сообщества и организации для внутрифирменных проектов имели тенденцию принимать технологии семантической паутины в большей степени, чем периферийные и менее специализированные сообщества. [47] Практические ограничения для принятия оказались менее сложными там, где домен и область применения более ограничены, чем у широкой общественности и Всемирной паутины. [47]
Наконец, Маршалл и Шипман видят прагматические проблемы в идее интеллектуальных агентов ( в стиле Knowledge Navigator ), работающих в в значительной степени вручную курируемой семантической паутине: [46]
В ситуациях, когда потребности пользователей известны, а распределенные информационные ресурсы хорошо описаны, этот подход может быть весьма эффективным; в ситуациях, которые не предвидятся и которые объединяют непредвиденный массив информационных ресурсов, подход Google более надежен. Кроме того, Semantic Web опирается на цепочки выводов, которые являются более хрупкими; отсутствующий элемент цепочки приводит к невозможности выполнить желаемое действие, в то время как человек может предоставить отсутствующие части в подходе, более похожем на Google. [...] компромиссы между затратами и выгодами могут работать в пользу специально созданных метаданных Semantic Web, направленных на объединение разумных, хорошо структурированных информационных ресурсов, специфичных для домена; пристальное внимание к потребностям пользователей/клиентов будет стимулировать эти федерации, если они хотят быть успешными.
Критика Кори Доктороу (« метачесать ») [48] исходит из перспективы человеческого поведения и личных предпочтений. Например, люди могут включать ложные метаданные в веб-страницы, пытаясь ввести в заблуждение движки семантической паутины, которые наивно предполагают достоверность метаданных. Это явление было хорошо известно с метатегами, которые обманывали алгоритм ранжирования Altavista , повышая рейтинг определенных веб-страниц: индексирующий движок Google специально ищет такие попытки манипуляции. Петер Герденфорс и Тимо Хонкела отмечают, что основанные на логике технологии семантической паутины охватывают лишь часть соответствующих явлений, связанных с семантикой. [49] [50]
Энтузиазм по поводу семантической паутины может быть сдержан опасениями относительно цензуры и конфиденциальности . Например, методы анализа текста теперь можно легко обойти, используя другие слова, например, метафоры, или используя изображения вместо слов. Расширенная реализация семантической паутины значительно облегчит правительствам контроль за просмотром и созданием онлайн-информации, поскольку эта информация будет намного проще для понимания автоматизированной машиной по блокировке контента. Кроме того, также был поднят вопрос о том, что при использовании файлов FOAF и метаданных геолокации будет очень мало анонимности, связанной с авторством статей о таких вещах, как личный блог. Некоторые из этих опасений были рассмотрены в проекте «Policy Aware Web» [51] и являются активной темой исследований и разработок.
Еще одна критика семантической сети заключается в том, что создание и публикация контента заняло бы гораздо больше времени, поскольку для одного фрагмента данных потребовалось бы два формата: один для просмотра человеком и один для машин. Однако многие веб-приложения в разработке решают эту проблему, создавая машиночитаемый формат при публикации данных или запросе таких данных машиной. Разработка микроформатов стала одной из реакций на такого рода критику. Еще одним аргументом в защиту осуществимости семантической сети является вероятное падение стоимости задач человеческого интеллекта на цифровых рынках труда, таких как Mechanical Turk от Amazon . [ требуется цитата ]
Такие спецификации, как eRDF и RDFa, позволяют встраивать произвольные данные RDF в страницы HTML. Механизм GRDDL (Gleaning Resource Descriptions from Dialects of Language) позволяет автоматически интерпретировать существующие материалы (включая микроформаты) как RDF, поэтому издателям нужно использовать только один формат, например HTML.
Первой исследовательской группой, которая специально сосредоточилась на корпоративной семантической паутине, была команда ACACIA в INRIA-Sophia-Antipolis , основанная в 2002 году. Результаты их работы включают поисковую систему Corese [52] на основе RDF(S) и применение технологии семантической паутины в области распределенного искусственного интеллекта для управления знаниями (например, онтологии и многоагентные системы для корпоративной семантической паутины) [53] и электронного обучения [54] .
С 2008 года исследовательская группа Corporate Semantic Web, расположенная в Свободном университете Берлина , фокусируется на следующих компонентах: корпоративный семантический поиск, корпоративное семантическое сотрудничество и корпоративная онтологическая инженерия. [55]
Исследования в области онтологической инженерии включают в себя вопрос о том, как привлечь пользователей-неспециалистов к созданию онтологий и семантически аннотированного контента [56] , а также к извлечению явных знаний из взаимодействия пользователей в рамках предприятий.
Тим О'Рейли , который придумал термин Web 2.0, предложил долгосрочное видение семантической паутины как сети данных, где сложные приложения перемещаются по ней и манипулируют ею. [57] Сеть данных преобразует Всемирную паутину из распределенной файловой системы в распределенную базу данных . [58]
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite book}}
: |work=
проигнорировано ( помощь )