Семантическая сеть , иногда известная как Web 3.0 (не путать с Web3 ), является расширением Всемирной паутины посредством стандартов [1] , установленных Консорциумом Всемирной паутины (W3C). Цель семантической сети — сделать данные Интернета машиночитаемыми.
Чтобы обеспечить кодирование семантики данных, используются такие технологии, как Resource Description Framework (RDF) [2] и Web Ontology Language (OWL) [3] . Эти технологии используются для формального представления метаданных . Например, онтология может описывать концепции , отношения между сущностями и категориями вещей. Эта встроенная семантика предлагает значительные преимущества, такие как анализ данных и работа с разнородными источниками данных. [4]
Эти стандарты продвигают общие форматы данных и протоколы обмена в Интернете, в основном RDF. По мнению W3C, «Семантическая сеть обеспечивает общую структуру, которая позволяет совместно использовать и повторно использовать данные в рамках приложений, предприятий и сообществ». [5] Таким образом, семантическая сеть рассматривается как интегратор различных контентных и информационных приложений и систем.
Этот термин был придуман Тимом Бернерсом-Ли для обозначения сети данных (или сети данных ) [6] , которая может обрабатываться машинами [7] — то есть такой, в которой большая часть значений является машиночитаемой . Хотя критики ставят под сомнение ее осуществимость, сторонники утверждают, что применение в библиотечной и информационной науке , промышленности, биологии и исследованиях в области гуманитарных наук уже доказало обоснованность первоначальной концепции. [8]
Бернерс-Ли первоначально выразил свое видение семантической сети в 1999 году следующим образом:
У меня есть мечта о Сети, [в которой компьютеры] смогут анализировать все данные в сети – контент, ссылки и транзакции между людьми и компьютерами. «Семантическая сеть», которая сделает это возможным, еще не появилась, но когда она появится, повседневными механизмами торговли, бюрократии и нашей повседневной жизни будут управлять машины, разговаривающие с машинами. « Интеллектуальные агенты », которых люди рекламировали на протяжении веков, наконец-то материализуются. [9]
В статье Бернерса-Ли, Хендлера и Лассилы в журнале Scientific American 2001 года описывается ожидаемая эволюция существующей сети к семантической сети. [10] В 2006 году Бернерс-Ли и его коллеги заявили, что: «Эта простая идея… остается по большей части нереализованной». [11] В 2013 году более четырех миллионов веб-доменов (из примерно 250 миллионов) содержали разметку семантической сети. [12]
В следующем примере текст «Пауль Шустер родился в Дрездене» на веб-сайте будет снабжен аннотацией, связывающей человека с местом его рождения. Следующий фрагмент HTML показывает, как описывается небольшой граф в синтаксисе RDFa с использованием словаря Schema.org и идентификатора Wikidata :
< div vocab = "https://schema.org/" typeof = "Person" > < span property = "name" > Пол Шустер </ span > родился в < span property = "birthPlace" typeof = "Place" href = "https://www.wikidata.org/entity/Q1731" > < span property = "name" > Дрезден </ span > . </span> </div>
В примере определяются следующие пять троек (показаны в синтаксисе Turtle ). Каждая тройка представляет одно ребро в результирующем графе: первый элемент тройки ( субъект ) — это имя узла, в котором начинается ребро, второй элемент ( предикат ) — тип ребра, а последний и третий элемент ( объект ) либо имя узла, где заканчивается ребро, либо буквальное значение (например, текст, число и т. д.).
_ : a <https://www.w3.org/1999/02/22-rdf-syntax-ns#type> <https://schema.org/Person> . _ : < https://schema.org/name > «Пол Шустер» . _ : < https://schema.org/birthPlace > <https://www.wikidata.org/entity/Q1731> . <https://www.wikidata.org/entity/Q1731> <https://schema.org/itemtype> <https://schema.org/Place> . <https://www.wikidata.org/entity/Q1731> <https://schema.org/name> «Дрезден» .
Тройки приводят к графу, показанному на данном рисунке.
Одним из преимуществ использования унифицированных идентификаторов ресурсов (URI) является то, что их можно разыменовать с помощью протокола HTTP . Согласно так называемым принципам связанных открытых данных , такой разыменованный URI должен привести к созданию документа, который предлагает дополнительные данные о данном URI. В этом примере все URI, как для ребер, так и для узлов (например http://schema.org/Person
, http://schema.org/birthPlace
, http://www.wikidata.org/entity/Q1731
), могут быть разыменованы, что приведет к созданию дальнейших графов RDF, описывающих URI, например, что Дрезден — это город в Германии или что человек в смысле этот URI может быть вымышленным.
Второй график показывает предыдущий пример, но теперь дополнен несколькими тройками из документов, полученными в результате разыменования https://schema.org/Person
(зеленый край) и https://www.wikidata.org/entity/Q1731
(синие края).
В дополнение к ребрам, явно заданным в соответствующих документах, ребра могут быть автоматически выведены: тройка
_ : a <https://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://schema.org/Person> .
из исходного фрагмента RDFa и тройки
<https://schema.org/Person> <http://www.w3.org/2002/07/owl#equivantClass> <http://xmlns.com/foaf/0.1/Person> .
из документа https://schema.org/Person
(зеленый край на рисунке) позволяют вывести следующую тройку, учитывая семантику OWL (красная пунктирная линия на втором рисунке):
_ : a <https://www.w3.org/1999/02/22-rdf-syntax-ns#type> <http://xmlns.com/foaf/0.1/Person> .
Концепция модели семантической сети была сформирована в начале 1960-х годов такими исследователями, как ученый-когнитивист Аллан М. Коллинз , лингвист М. Росс Куиллиан и психолог Элизабет Ф. Лофтус, как форма представления семантически структурированных знаний. При применении в контексте современного Интернета он расширяет сеть гиперссылок, удобочитаемых человеком веб-страниц , вставляя машиночитаемые метаданные о страницах и о том, как они связаны друг с другом. Это позволяет автоматическим агентам более интеллектуально получать доступ к Интернету и выполнять больше задач от имени пользователей. Термин «Семантическая сеть» был придуман Тимом Бернерсом-Ли , [7] изобретателем Всемирной паутины и директором Консорциума Всемирной паутины (« W3C »), который курирует разработку предлагаемых стандартов семантической паутины. Он определяет семантическую сеть как «сеть данных, которые могут обрабатываться машинами прямо или косвенно».
Многие из технологий, предложенных W3C, уже существовали до того, как они были позиционированы под эгидой W3C. Они используются в различных контекстах, особенно в тех, которые связаны с информацией, которая охватывает ограниченную и определенную область, и где обмен данными является общей необходимостью, например, научные исследования или обмен данными между предприятиями. Кроме того, появились и другие технологии с аналогичными целями, например микроформаты .
Многие файлы на обычном компьютере также можно условно разделить на документы, читаемые человеком, и данные, читаемые компьютером. Такие документы, как почтовые сообщения, отчеты и брошюры, читаются людьми. Данные, такие как календари, адресные книги, списки воспроизведения и электронные таблицы, представляются с помощью прикладной программы, которая позволяет их просматривать, искать и комбинировать.
В настоящее время Всемирная паутина основана главным образом на документах, написанных на языке гипертекстовой разметки (HTML), соглашении о разметке, которое используется для кодирования текста с вкраплениями мультимедийных объектов, таких как изображения и интерактивные формы. Теги метаданных предоставляют метод, с помощью которого компьютеры могут классифицировать содержимое веб-страниц. В приведенных ниже примерах именам полей «ключевые слова», «описание» и «автор» присвоены такие значения, как «вычисления», «дешевые виджеты на продажу» и «Джон Доу».
< meta name = "keywords" content = "вычисления, компьютерные исследования, компьютер" /> < meta name = "description" content = "Дешевые виджеты на продажу" /> < meta name = "author" content = "Джон Доу" / >
Благодаря такой маркировке и категоризации метаданных другие компьютерные системы, желающие получить доступ к этим данным и поделиться ими, могут легко идентифицировать соответствующие значения.
С помощью HTML и инструмента для его отображения (возможно, программного обеспечения веб-браузера , возможно, другого пользовательского агента ) можно создать и представить страницу со списком товаров, выставленных на продажу. HTML-код этой страницы каталога может содержать простые утверждения на уровне документа, такие как «Название этого документа — «Widget Superstore » », но в самом HTML-коде нет возможности однозначно утверждать, что, например, номер позиции X586172 является кодом Acme. Gizmo с розничной ценой 199 евро или что это потребительский товар. Скорее, HTML может только сказать, что диапазон текста «X586172» должен быть расположен рядом с «Acme Gizmo», «199 евро» и т. д. Невозможно сказать «это каталог» или даже установить, что «Acme Gizmo» — это своего рода титул, а «199 евро» — это цена. Также невозможно выразить, что эти фрагменты информации связаны вместе при описании отдельного элемента, отличного от других элементов, возможно, перечисленных на странице.
Семантический HTML относится к традиционной практике HTML, заключающейся в разметке в соответствии с намерением, а не непосредственном указании деталей макета. Например, использование обозначения <em>
«акцент», а не <i>
, которое обозначает курсив . Детали макета оставляются на усмотрение браузера в сочетании с каскадными таблицами стилей . Но эта практика не позволяет определить семантику таких объектов, как предметы для продажи или цены.
Микроформаты расширяют синтаксис HTML для создания машиночитаемой семантической разметки объектов, включая людей, организации, события и продукты. [13] Подобные инициативы включают RDFa , Microdata и Schema.org .
Семантическая сеть продвигает решение еще дальше. Он включает публикацию на языках, специально предназначенных для данных: структура описания ресурсов (RDF), язык веб-онтологии (OWL) и расширяемый язык разметки ( XML ). HTML описывает документы и связи между ними. RDF, OWL и XML, напротив, могут описывать произвольные вещи, такие как люди, встречи или части самолета.
Эти технологии объединяются для предоставления описаний, которые дополняют или заменяют содержимое веб-документов. Таким образом, контент может проявляться в виде описательных данных, хранящихся в базах данных , доступных через Интернет , [14] или в виде разметки внутри документов (в частности, в расширяемом HTML ( XHTML ) с вкраплениями XML, или, что чаще, исключительно в XML, с макетом или рендерингом. сигналы хранятся отдельно). Машиночитаемые описания позволяют менеджерам контента добавлять смысл к контенту, т. е. описывать структуру наших знаний об этом контенте. Таким образом, машина может обрабатывать знания сама, а не текст, используя процессы, аналогичные человеческим дедуктивным рассуждениям и выводам , тем самым получая более значимые результаты и помогая компьютерам выполнять автоматизированный сбор информации и исследования.
Пример тега, который будет использоваться на несемантической веб-странице:
<item> блог </item>
Кодирование аналогичной информации на семантической веб-странице может выглядеть следующим образом:
<item rdf:about= "https://example.org/semantic-web/" > Семантическая сеть </item>
Тим Бернерс-Ли называет получившуюся сеть связанных данных гигантским глобальным графом , в отличие от Всемирной паутины на основе HTML. Бернерс-Ли утверждает, что если в прошлом был обмен документами, то будущее — это обмен данными . Его ответ на вопрос «как» содержит три пункта наставления. Во-первых, URL-адрес должен указывать на данные. Во-вторых, любой, кто обращается к URL-адресу, должен получить данные обратно. В-третьих, связи в данных должны указывать на дополнительные URL-адреса с данными.
Теги , включая иерархические категории и теги, которые добавляются и поддерживаются совместно (например, с помощью фолксономии ), могут рассматриваться как часть потенциального использования или шаг к семантической концепции Интернета. [15] [16] [17]
Уникальные идентификаторы , включая иерархические категории и совместно добавляемые категории, инструменты анализа (например, алгоритмы scite.ai) [18] и метаданные , включая теги, могут использоваться для создания форм семантических сетей – сетей, которые в определенной степени являются семантическими. В частности, это использовалось для структурирования научных исследований, в том числе по темам исследований и научным областям , в проектах OpenAlex , [19] [20] [21] Wikidata и Scholia , которые находятся в стадии разработки и предоставляют API , веб-страницы, каналы и графики. для различных смысловых запросов .
Тим Бернерс-Ли описал семантическую сеть как компонент Web 3.0. [22]
Люди продолжают спрашивать, что такое Web 3.0. Я думаю, возможно, когда у вас будет наложение масштабируемой векторной графики – все колеблется, складывается и выглядит туманным – в Web 2.0 и доступ к семантической сети, интегрированной в огромное пространство данных, вы получите доступ к невероятному ресурсу данных. …
- Тим Бернерс-Ли, 2006 г.
«Семантическая сеть» иногда используется как синоним «Веб 3.0» [23] , хотя определения каждого термина различаются.
Некоторые из проблем семантической сети включают обширность, неопределенность, неопределенность, непоследовательность и обман. Автоматизированным системам рассуждения придется иметь дело со всеми этими проблемами, чтобы реализовать обещания семантической сети.
Этот список проблем является скорее иллюстративным, чем исчерпывающим, и он сосредоточен на проблемах слоев «объединяющей логики» и «доказательства» семантической сети. В итоговом отчете Инкубационной группы по обоснованию неопределенности для Всемирной паутины Консорциума Всемирной паутины (W3C) [24] (URW3-XG) эти проблемы объединены под единым заголовком «неопределенность». [25] Многие из упомянутых здесь методов потребуют расширений языка веб-онтологий (OWL), например, для аннотирования условных вероятностей. Это область активных исследований. [26]
Стандартизацией семантической сети в контексте Web 3.0 занимается W3C. [27]
Термин «Семантическая сеть» часто используется более конкретно для обозначения форматов и технологий, которые ее обеспечивают. [5] Сбор, структурирование и восстановление связанных данных обеспечиваются технологиями, которые обеспечивают формальное описание концепций, терминов и отношений в пределах данной области знаний . Эти технологии определены как стандарты W3C и включают в себя:
Стек семантической сети иллюстрирует архитектуру семантической сети. Функции и взаимоотношения компонентов можно резюмировать следующим образом: [28]
Устоявшиеся стандарты:
Еще не до конца реализовано:
Цель состоит в том, чтобы повысить удобство использования и полезность Интернета и связанных с ним ресурсов путем создания семантических веб-сервисов , таких как:
<meta>
тегов , используемых на современных веб-страницах для предоставления информации поисковым системам , использующим веб-сканеры ). Это может быть понятная машине информация о понятном человеку содержании документа (например, создатель, название, описание и т. д.) или это могут быть чисто метаданные, представляющие набор фактов (например, ресурсы и услуги в других местах сайта). ). Обратите внимание: все , что можно идентифицировать с помощью универсального идентификатора ресурса (URI), можно описать, поэтому семантическая сеть может рассуждать о животных, людях, местах, идеях и т. д. В документах HTML можно использовать четыре формата семантических аннотаций; Микроформат, RDFa, микроданные и JSON-LD . [32] Семантическая разметка часто создается автоматически, а не вручную.Такие услуги могут быть полезны для общедоступных поисковых систем или могут использоваться для управления знаниями внутри организации. Бизнес-приложения включают в себя:
В корпорации существует закрытая группа пользователей, и руководство может обеспечивать соблюдение правил компании, таких как принятие определенных онтологий и использование семантических аннотаций . По сравнению с общедоступной семантической сетью требования к масштабируемости меньшие , и в целом информации, циркулирующей внутри компании, можно доверять больше; конфиденциальность не является проблемой, если не считать обработки данных клиентов.
Критики подвергают сомнению принципиальную возможность полной или даже частичной реализации Семантической сети, указывая как на трудности ее настройки, так и на отсутствие универсальной полезности, которая не позволяет вложить необходимые усилия. В статье 2003 года Маршалл и Шипман указывают на когнитивные издержки, присущие формализации знаний по сравнению с созданием традиционного веб- гипертекста : [43]
Хотя изучение основ HTML относительно просто, изучение языка или инструмента представления знаний требует от автора изучения методов абстракции представления и их влияния на рассуждения. Например, понимание отношений класса-экземпляра или отношений суперкласса-подкласса — это больше, чем понимание того, что одна концепция является «типом» другой концепции. [...] Эти абстракции преподаются ученым-компьютерщикам в целом и инженерам по знаниям в частности, но они не соответствуют аналогичному значению на естественном языке, когда речь идет о «типе» чего-либо. Эффективное использование такого формального представления требует от автора стать квалифицированным инженером по знаниям в дополнение к любым другим навыкам, необходимым для предметной области. [...] После того, как кто-то выучил формальный язык представления, часто приходится прилагать гораздо больше усилий для выражения идей в этом представлении, чем в менее формальном представлении [...]. Действительно, это форма программирования, основанная на объявлении семантических данных и требующая понимания того, как алгоритмы рассуждения будут интерпретировать созданные структуры.
По мнению Маршалла и Шипмана, неявная и изменяющаяся природа многих знаний усугубляет проблему инженерии знаний и ограничивает применимость семантической сети в конкретных областях. Еще одна проблема, на которую они указывают, — это способы выражения знаний, специфичные для предметной области или организации, которые должны быть решены посредством соглашения сообщества, а не только техническими средствами. [43] Как выяснилось, специализированные сообщества и организации для внутрифирменных проектов имеют тенденцию применять семантические веб-технологии в большей степени, чем периферийные и менее специализированные сообщества. [44] Практические ограничения на внедрение оказались менее сложными там, где сфера применения и масштабы более ограничены, чем у широкой публики и Всемирной паутины. [44]
Наконец, Маршалл и Шипман видят прагматические проблемы в идее интеллектуальных агентов ( в стиле «Навигатора знаний »), работающих в семантической сети, курируемой в основном вручную: [43]
В ситуациях, когда потребности пользователей известны и распределенные информационные ресурсы хорошо описаны, этот подход может быть весьма эффективным; В непредвиденных ситуациях, которые объединяют неожиданный массив информационных ресурсов, подход Google оказывается более надежным. Более того, семантическая сеть опирается на более хрупкие цепочки вывода; недостающий элемент цепочки приводит к невозможности выполнить желаемое действие, в то время как человек может дополнить недостающие части, используя подход, более похожий на Google. [...] соотношение затрат и выгод может работать в пользу специально созданных метаданных семантической сети, направленных на объединение разумных, хорошо структурированных информационных ресурсов, специфичных для конкретной предметной области; Пристальное внимание к потребностям пользователей/заказчиков будет способствовать успеху этих федераций.
Критика Кори Доктороу (« метадерьмо ») [45] проводится с точки зрения человеческого поведения и личных предпочтений. Например, люди могут включать в веб-страницы ложные метаданные, пытаясь ввести в заблуждение механизмы семантической паутины, которые наивно предполагают достоверность метаданных. Это явление было хорошо известно благодаря метатегам, которые обманом заставили алгоритм ранжирования Altavista повысить рейтинг определенных веб-страниц: индексная система Google специально выявляет такие попытки манипуляции. Питер Герденфорс и Тимо Хонкела отмечают, что основанные на логике технологии семантической сети охватывают лишь часть соответствующих явлений, связанных с семантикой. [46] [47]
Энтузиазм по поводу семантической сети может быть умерен опасениями по поводу цензуры и конфиденциальности . Например, методы анализа текста теперь можно легко обойти, используя другие слова, например метафоры, или используя изображения вместо слов. Передовая реализация семантической сети значительно облегчила бы правительствам контроль над просмотром и созданием онлайн-информации, поскольку эту информацию было бы намного легче понять автоматической машине, блокирующей контент. Кроме того, также поднимался вопрос о том, что при использовании файлов FOAF и метаданных геолокации будет очень мало анонимности, связанной с авторством статей о таких вещах, как личный блог. Некоторые из этих проблем были решены в проекте «Policy Aware Web» [48] и являются активной темой исследований и разработок.
Другая критика семантической сети заключается в том, что создание и публикация контента потребует гораздо больше времени, поскольку для одного фрагмента данных потребуется два формата: один для просмотра людьми, а другой для машин. Однако многие разрабатываемые веб-приложения решают эту проблему путем создания машиночитаемого формата после публикации данных или запроса таких данных от машины. Одной из реакций на такого рода критику стало развитие микроформатов. Еще одним аргументом в защиту осуществимости семантической сети является вероятное падение цен на задачи человеческого интеллекта на цифровых рынках труда, таких как Mechanical Turk от Amazon . [ нужна цитата ]
Такие спецификации, как eRDF и RDFa, позволяют встраивать произвольные данные RDF в страницы HTML. Механизм GRDDL (Gleaning Resource Descriptions from Dialects of Language) позволяет автоматически интерпретировать существующие материалы (включая микроформаты) как RDF, поэтому издателям нужно использовать только один формат, например HTML.
Первой исследовательской группой, специально сосредоточившейся на корпоративной семантической сети, была команда ACACIA в INRIA-София-Антиполис , основанная в 2002 году. Результаты их работы включают поисковую систему Corese [49] на основе RDF(S) и применение семантической сети. технологии в области распределенного искусственного интеллекта для управления знаниями (например, онтологии и мультиагентные системы для корпоративной семантической сети) [50] и электронного обучения . [51]
С 2008 года исследовательская группа корпоративной семантической сети, расположенная в Свободном университете Берлина , занимается строительными блоками: корпоративным семантическим поиском, корпоративным семантическим сотрудничеством и разработкой корпоративной онтологии. [52]
Инженерные исследования онтологии включают в себя вопрос о том, как привлечь неопытных пользователей к созданию онтологий и семантически аннотированного контента [53], а также к извлечению явных знаний из взаимодействия пользователей внутри предприятий.
Тим О'Рейли , придумавший термин Web 2.0, предложил долгосрочное видение семантической сети как сети данных, в которой сложные приложения перемещаются по ней и манипулируют ею. [54] Сеть данных преобразует Всемирную паутину из распределенной файловой системы в распределенную базу данных . [55]
{{cite journal}}
: Требуется цитировать журнал |journal=
( помощь ){{cite book}}
: |work=
игнорируется ( помощь )