Унифицированный идентификатор ресурса ( URI ), ранее универсальный идентификатор ресурса , представляет собой уникальную последовательность символов, которая идентифицирует абстрактный или физический ресурс, [1] такой как ресурсы на веб-странице, почтовый адрес, номер телефона, [2] книги, объекты реального мира, такие как люди и места, концепции. [3] URI используются для идентификации чего-либо, описанного с использованием структуры описания ресурсов (RDF), например, концепции, которые являются частью онтологии, определенной с использованием языка веб-онтологии (OWL), и люди, которые описаны с использованием словаря «друг друга», будут иметь каждый индивидуальный URI.
URI, которые предоставляют средства для поиска и извлечения информационных ресурсов в сети (в Интернете или в другой частной сети, такой как файловая система компьютера или Интранет ), являются унифицированными указателями ресурсов ( URL ). Таким образом, URL являются подмножеством URI, т. е. каждый URL является URI (и не обязательно наоборот). [2] Другие URI предоставляют только уникальное имя, без средств поиска или извлечения ресурса или информации о нем; это унифицированные имена ресурсов (URN). Веб-технологии, которые используют URI, не ограничиваются веб-браузерами .
URI и URL имеют общую историю. В 1990 году предложения Тима Бернерса-Ли по гипертексту неявно ввели идею URL как короткой строки, представляющей ресурс, являющийся целью гиперссылки . [ 4] В то время люди называли его «гипертекстовым именем» [5] или «именем документа».
В течение следующих трех с половиной лет, по мере развития основных технологий Всемирной паутины HTML , HTTP и веб-браузеров , возникла необходимость различать строку, которая предоставляла адрес ресурса, от строки, которая просто называла ресурс. Хотя формально это еще не было определено, термин Uniform Resource Locator стал представлять первое, а более спорный Uniform Resource Name стал представлять второе. В июле 1992 года в отчете Бернерса-Ли о рабочей группе по инжинирингу Интернета (IETF) «UDI (Universal Document Identifiers) BOF » упоминаются URL (как Uniform Resource Locators), URN (первоначально как Unique Resource Numbers) и необходимость создания новой рабочей группы. [6] В ноябре 1992 года рабочая группа IETF «URI» собралась впервые. [7]
В ходе дебатов по поводу определения URL и URN стало очевидно, что концепции, воплощенные в этих двух терминах, были всего лишь аспектами фундаментального, всеобъемлющего понятия идентификации ресурсов . В июне 1994 года IETF опубликовала первый Запрос на комментарии Бернерса-Ли , в котором признавалось существование URL и URN. Что наиболее важно, он определил формальный синтаксис для универсальных идентификаторов ресурсов (т. е. строк, подобных URL, точный синтаксис и семантика которых зависели от их схем). Кроме того, RFC 1630 попытался обобщить синтаксисы схем URL, используемых в то время. Он признавал — но не стандартизировал — существование относительных URL и идентификаторов фрагментов. [8]
В декабре 1994 года RFC 1738 формально определил относительные и абсолютные URL-адреса, уточнил общий синтаксис URL-адресов, определил, как преобразовывать относительные URL-адреса в абсолютную форму, и лучше перечислил используемые в то время схемы URL-адресов. [9] Согласованное определение и синтаксис URN пришлось ждать до публикации IETF RFC 2141 [10] в мае 1997 года.
Публикация IETF RFC 2396 [11] в августе 1998 года привела к тому, что синтаксис URI стал отдельной спецификацией [11] , и большинство частей RFC 1630 и 1738, касающихся URI и URL в целом, были пересмотрены и расширены IETF. Новый RFC изменил значение U в URI с «универсального» на «единообразный».
В декабре 1999 года RFC 2732 [12] предоставил небольшое обновление RFC 2396, позволив URI вмещать адреса IPv6 . Ряд недостатков, обнаруженных в двух спецификациях, привели к усилиям сообщества, координируемым соавтором RFC 2396 Роем Филдингом , которые завершились публикацией IETF RFC 3986 [13] в январе 2005 года. Хотя предыдущий стандарт и стал устаревшим, он не сделал устаревшими детали существующих схем URL; RFC 1738 продолжает регулировать такие схемы, за исключением случаев, когда он был заменен. Например, IETF RFC 2616 [14] уточняет схему. Одновременно IETF опубликовала содержание RFC 3986 как полный стандарт STD 66, отражающий установление общего синтаксиса URI в качестве официального интернет-протокола.http
В 2001 году Группа технической архитектуры (TAG) Консорциума Всемирной паутины (W3C) опубликовала руководство по передовому опыту и каноническим URI для публикации нескольких версий одного ресурса. [15] Например, контент может отличаться по языку или размеру, чтобы адаптироваться к емкости или настройкам устройства, используемого для доступа к этому контенту.
В августе 2002 года в документе IETF RFC 3305 [16] было отмечено, что термин «URL», несмотря на широкое публичное использование, практически устарел и служит лишь напоминанием о том, что некоторые URI действуют как адреса, имея схемы, подразумевающие доступность сети, независимо от любого такого фактического использования. Как показывают стандарты на основе URI, такие как Resource Description Framework , идентификация ресурсов не обязательно должна предполагать извлечение представлений ресурсов через Интернет, и они вообще не должны подразумевать сетевые ресурсы.
Семантическая паутина использует схему HTTP URI для идентификации как документов, так и концепций для практического использования, различие, которое вызвало путаницу относительно того, как различать эти два понятия. В 2005 году TAG опубликовал электронное письмо с решением проблемы, которое стало известно как резолюция httpRange-14 . [17] Впоследствии W3C опубликовал заметку группы по интересам под названием Cool URIs for the Semantic Web , в которой более подробно объяснялось использование согласования контента и кода ответа HTTP 303 для перенаправлений. [18]
Унифицированное имя ресурса (URN) — это URI, который идентифицирует ресурс по имени в определенном пространстве имен. URN может использоваться для описания ресурса без указания его местоположения или способа доступа к нему. Например, в системе международных стандартных книжных номеров (ISBN) ISBN 0-486-27557-4 идентифицирует конкретное издание пьесы Уильяма Шекспира «Ромео и Джульетта» . URN для этого издания будет urn:isbn:0-486-27557-4 . Однако он не дает никакой информации о том, где найти копию этой книги.
Единый указатель ресурса (URL) — это URI, который указывает средства действия или получения представления ресурса, т. е. указывает как его основной механизм доступа, так и сетевое местоположение. Например, URL http://example.org/wiki/Uniform_Resource_Identifiers/Main_Page
ссылается на ресурс, идентифицированный как /wiki/Uniform_Resource_Identifiers/Main_Page
, представление которого можно получить через протокол передачи гипертекста ( http: ) с сетевого хоста, доменное имя которого example.org
. (В этом случае HTTP обычно подразумевает, что это будет в форме HTML и связанного кода. На практике это не обязательно так, поскольку HTTP позволяет указывать произвольные форматы в своем заголовке.)
URN аналогичен имени человека, а URL аналогичен его адресу. Другими словами, URN идентифицирует элемент, а URL предоставляет метод его поиска.
Технические публикации, особенно стандарты, разработанные IETF и W3C, обычно отражают точку зрения, изложенную в Рекомендации W3C от 30 июля 2001 года, которая признает приоритет термина URI, а не одобряет какое-либо формальное подразделение на URL и URN.
URL — полезная, но неформальная концепция: URL — это тип URI, который идентифицирует ресурс посредством представления его основного механизма доступа (например, его сетевого «местоположения»), а не посредством некоторых других атрибутов, которые он может иметь. [19]
Таким образом, URL — это просто URI, который указывает на ресурс в сети. [a] [16] Однако в нетехнических контекстах и в программном обеспечении для Всемирной паутины термин «URL» по-прежнему широко используется. Кроме того, термин «веб-адрес» (не имеющий формального определения) часто встречается в нетехнических публикациях как синоним URI, который использует схемы http или https . Такие предположения могут привести к путанице, например, в случае пространств имен XML, которые имеют визуальное сходство с разрешимыми URI.
Спецификации, разработанные WHATWG, отдают предпочтение URL, а не URI , и поэтому новые API HTML5 используют URL, а не URI . [20]
Стандартизируйте термин URL. URI и IRI [Internationalized Resource Identifier] просто сбивают с толку. На практике для обоих используется один алгоритм, поэтому сохранение их различий никому не помогает. URL также легко выигрывает конкурс популярности результатов поиска. [21]
Хотя большинство схем URI изначально были разработаны для использования с определенным протоколом и часто имеют одинаковое имя, они семантически отличаются от протоколов. Например, схема http обычно используется для взаимодействия с веб-ресурсами с использованием HTTP, но файл схемы не имеет протокола.
URI имеет схему, которая ссылается на спецификацию для назначения идентификаторов в рамках этой схемы. Таким образом, синтаксис URI является федеративной и расширяемой системой именования, в которой спецификация каждой схемы может дополнительно ограничивать синтаксис и семантику идентификаторов, использующих эту схему. Общий синтаксис URI является надмножеством синтаксиса всех схем URI. Впервые он был определен в RFC 2396, опубликованном в августе 1998 года, [11] и окончательно оформлен в RFC 3986, опубликованном в январе 2005 года. [22]
URI состоит из разрешенного набора символов ASCII , состоящего из зарезервированных символов (общие разделители: :
, /
, ?
, #
, [
, ]
, и @
; подразделители: !
, $
, &
, '
, (
, )
, *
, , +
, ,
, ;
, и =
), [23] незарезервированных символов ( заглавные и строчные буквы , десятичные цифры , -
, .
, _
, и ~
), [23] и символа %
. [24] Компоненты и подкомпоненты синтаксиса отделяются разделителями от зарезервированных символов (только от общих зарезервированных символов для компонентов) и определяют идентификационные данные, представленные как незарезервированные символы, зарезервированные символы, которые не действуют как разделители в компоненте и подкомпоненте соответственно, [13] : §2 и процентные кодировки , когда соответствующий символ находится за пределами разрешенного набора или используется в качестве разделителя компонента или внутри него. Процентное кодирование идентифицирующего октета данных представляет собой последовательность из трех символов, состоящую из символа, %
за которым следуют две шестнадцатеричные цифры, представляющие числовое значение этого октета. [13] : §2.1
Общий синтаксис URI состоит из пяти компонентов, организованных иерархически в порядке убывания значимости слева направо: [13] : §3
URI = схема ":" ["//" полномочия] путь ["?" запрос] ["#" фрагмент]
Компонент не определен , если он имеет связанный разделитель и разделитель не отображается в URI; компоненты схемы и пути всегда определены. [13] : §5.2.1 Компонент пуст, если он не имеет символов; компонент схемы всегда непустой. [13] : §3
Компонент полномочий состоит из подкомпонентов :
полномочия = [userinfo "@"] хост [":" порт]
На синтаксической диаграмме это представлено следующим образом:
URI включает в себя:
:
), состоящее из последовательности символов, начинающихся с буквы и сопровождаемых любой комбинацией букв, цифр, плюса (+
), точки (.
) или дефиса (-
). Хотя схемы нечувствительны к регистру, каноническая форма — строчные буквы, и документы, в которых указаны схемы, должны делать это строчными буквами. Примерами популярных схем являютсяhttp
,https
,ftp
,mailto
,file
,data
иirc
. Схемы URI должны быть зарегистрированы вInternet Assigned Numbers Authority (IANA), хотя на практике используются и незарегистрированные схемы.[b]//
), включает в себя:@
), который может состоять изимени пользователяи необязательногопароля, которому предшествует двоеточие (:
). Использование форматаusername:password
в подкомпоненте userinfo устарело по соображениям безопасности. Приложения не должны отображать как открытый текст любые данные после первого двоеточия (:
), найденные в подкомпоненте userinfo, если только данные после двоеточия не являются пустой строкой (указывающей на отсутствие пароля).[]
).[13] : §3.2.2 [c]:
), состоящий из десятичных цифр./
). Путь всегда определяется для URI, хотя определенный путь может быть пустым (нулевой длины). Сегмент также может быть пустым, что приводит к двум последовательным косым чертам (//
) в компоненте пути. Компонент пути может напоминать или точно соответствоватьпути файловой системы, но не всегда подразумевает связь с ней. Если компонент полномочий определен, то компонент пути должен быть либо пустым, либо начинаться со слеша (/
). Если компонент полномочий не определен, то путь не может начинаться с пустого сегмента, то есть с двух слешей (//
), так как следующие символы будут интерпретироваться как компонент полномочий.[11] : §3.3 "http://www.example.com/questions/3456/my-document"
"/questions"
— первая часть пути ( исполняемый модуль или программа), а "/3456/my-document"
— вторая часть пути с именем pathinfo , которая передается исполняемому модулю или программе с именем "/questions"
для выбора запрошенного документа.?
), состоящий изстроки запросанеиерархических данных. Его синтаксис не очень хорошо определен, но по соглашению чаще всего представляет собой последовательностьпар атрибут-значение,разделенныхразделителем.#
). Фрагмент содержитидентификатор фрагмента,указывающий направление к вторичному ресурсу, такому как заголовок раздела в статье, идентифицированной оставшейся частью URI. Когда первичный ресурс — этоHTML-документ, фрагмент часто являетсяid
атрибутомопределенного элемента, и веб-браузеры прокручивают этот элемент в поле зрения.Зарезервированный символ, специфичный для схемы или реализации, +
может использоваться в схеме, информации о пользователе, хосте, пути, запросе и фрагменте, а зарезервированные символы, специфичные для схемы или реализации !
, $
, &
, '
, (
, )
, *
, ,
, ;
, , и =
могут использоваться в информации о пользователе, хосте, пути, запросе и фрагменте. Кроме того, общий зарезервированный символ :
может использоваться в информации о пользователе, пути, запросе и фрагменте, общие зарезервированные символы @
и /
могут использоваться в пути, запросе и фрагменте, а общий зарезервированный символ ?
может использоваться в запросе и фрагменте. [13] : §A
На следующем рисунке показаны примеры URI и их составные части.
информация о пользователе хост порт ┌──┴───┐ ┌────────┴─────┐ ┌┴─┐ https://[email protected]:1234/forum/questions/?tag=networking&order=newest#top └─┬─┘ └────────────┬─────────────┘ └───────┬─────── ┘ └────────────┬────────────┘ └┬┘ схема полномочия путь запрос фрагмент userinfo хост порт ┌──┴────┐ ┌────────────┐ ┌┴─┐ https://[email protected]:1234/forum/questions/?tag=networking&order=newest#:~:text=whatever └─┬─┘ └────────────┬─────────────┘ └───────┬─────── ┘ └────────────┬────────────┘ └───────┬───────┘ фрагмент запроса пути полномочий схемы ldap://[2001:db8::7]/c=GB?objectClass?one └┬─┘ └──────┬─────┘ └─┬─┘ └───────┬──────┘ запрос пути к схеме полномочий mailto:[email protected] └─┬──┘ └────┬──────────────┘ схема пути новости:comp.infosystems.www.servers.unix └┬─┘ └────────────────┬──────────────────┘ схема пути тел:+1-816-555-1212 └┬┘ └───────┬──────┘ схема пути телнет://192.0.2.16:80/ └─┬──┘ └─────┬─────┘ │ схема путь полномочий urn:oasis:names:specification:docbook:dtd:xml:4.1.2 └┬┘ └────────────────────────────┬────────────────────────┘ схема пути
DOI ( цифровые идентификаторы объектов ) вписываются в систему дескрипторов и в систему URI, чему способствует соответствующий синтаксис .
Ссылка URI является либо URI, либо относительной ссылкой , если она не начинается с компонента схемы, за которым следует двоеточие ( :
). [13] : §4.1 Сегмент пути, содержащий символ двоеточия (например, foo:bar
), не может использоваться в качестве первого сегмента пути относительной ссылки, если его компонент пути не начинается с косой черты ( /
), поскольку он будет ошибочно принят за компонент схемы. Такому сегменту пути должен предшествовать сегмент пути с точкой (например, ./foo:bar
). [13] : §4.2
Языки разметки веб-документов часто используют ссылки URI для указания на другие ресурсы, такие как внешние документы или определенные части того же логического документа: [13] : §4.4
src
элемента img
предоставляет ссылку URI, как и значение атрибута href
элемента a
or link
;SYSTEM
ключевого слова в DTD, представляет собой нефрагментированную ссылку URI;href
элемента xsl:import
/инструкции является ссылкой URI; аналогично первому аргументу функции document()
.https://example.com/path/resource.txt#fragment//example.com/path/resource.txt/путь/ресурс.txtпуть/ресурс.txt../ресурс.txt./ресурс.txtресурс.txt#фрагмент
Разрешение ссылки URI по базовому URI приводит к целевому URI . Это подразумевает, что базовый URI существует и является абсолютным URI (URI без фрагментного компонента). Базовый URI можно получить, в порядке приоритета, из: [13] : §5.1
В представлении с четко определенным базовым URI
http://a/b/c/d;p?q
относительная ссылка разрешается в ее целевой URI следующим образом: [13] : §5.4
"г:ч" -> "г:ч""г" -> "http://a/b/c/g""./g" -> "http://a/b/c/g""г/" -> "http://a/b/c/g/""/g" -> "http://a/g""//г" -> "http://г""?y" -> "http://a/b/c/d;p?y""г?у" -> "http://a/b/c/g?у""#s" -> "http://a/b/c/d;p?q#s""г#с" -> "http://a/b/c/g#s""г?y#s" -> "http://a/b/c/g?y#s"";x" -> "http://a/b/c/;x""г;х" -> "http://a/b/c/г;х""g;x?y#s" -> "http://a/b/c/g;x?y#s""" -> "http://a/b/c/d;p?q""." -> "http://a/b/c/""./" -> "http://a/b/c/"".." -> "http://a/b/""../" -> "http://a/b/""../g" -> "http://a/b/g""../.." -> "http://a/""../../" -> "http://a/""../../g" -> "http://a/g"
URL munging — это метод, при котором команда добавляется к URL, обычно в конце, после токена "?" . Он обычно используется в WebDAV как механизм добавления функциональности к HTTP . В системе управления версиями, например, для добавления команды "checkout" к URL, она записывается как http://editing.com/resource/file.php?command=checkout
. Он имеет то преимущество, что он прост для парсеров CGI , а также действует как посредник между HTTP и базовым ресурсом, в данном случае. [28]
В XML пространство имен — это абстрактный домен, которому может быть назначена коллекция имен элементов и атрибутов. Имя пространства имен — это строка символов, которая должна соответствовать общему синтаксису URI. [29] Однако имя обычно не считается URI, [30] поскольку спецификация URI основывает решение не только на лексических компонентах, но и на их предполагаемом использовании. Имя пространства имен не обязательно подразумевает какую-либо семантику схем URI; например, имя пространства имен, начинающееся с http:, может не иметь никакого отношения к использованию HTTP .
Первоначально имя пространства имен могло соответствовать синтаксису любой непустой ссылки URI, но использование относительных ссылок URI было признано устаревшим W3C. [31] Отдельная спецификация W3C для пространств имен в XML 1.1 позволяет ссылкам на интернационализированные идентификаторы ресурсов (IRI) служить основой для имен пространств имен в дополнение к ссылкам URI. [32]
.0
опускать части точечно-десятичной записи или использовать необработанные целочисленные IP-адреса. [26]{{citation}}
: CS1 maint: multiple names: authors list (link)