Тег языка IETF

Языковой тег IETF BCP 47 — это стандартизированный код, который используется для идентификации человеческих языков в Интернете. ^[1] Структура тега была стандартизирована Инженерной рабочей группой Интернета (IETF) ^[1] в Best Current Practice (BCP) 47 ; ^[1] подтеги поддерживаются Реестром языковых подтегов IANA . ^[2]^[3]^[4]

Чтобы различать языковые варианты для стран, регионов или систем письма (скриптов), языковые теги IETF объединяют подтеги из других стандартов, таких как ISO 639 , ISO 15924 , ISO 3166-1 и UN M.49 . Например, тег enобозначает английский язык ; es-419латиноамериканский испанский язык ; rm-sursilvретороманский сурсильванский язык ; sr-Cyrlсербский язык , написанный кириллицей ; nan-Hant-TWминьнаньский китайский язык с использованием традиционных ханьских символов , как говорят на Тайване ; yue-Hant-HKкантонский диалект с использованием традиционных ханьских символов , как говорят в Гонконге ; и gsw-u-sd-chzhцюрихский немецкий язык .

Он используется в таких вычислительных стандартах, как HTTP , ^[5] HTML , ^[6] XML ^[7] и PNG . ^[8] 󠀁

История

Языковые теги IETF были впервые определены в документе RFC 1766 под редакцией Харальда Твейта Альвестранда , опубликованном в марте 1995 года. Теги использовали двухбуквенные коды языков ISO 639 и двухбуквенные коды стран ISO 3166 и допускали регистрацию целых тегов, включавших вариантные или письменные подтеги из трех-восьми букв.

В январе 2001 года этот стандарт был обновлен RFC 3066, в котором было добавлено использование трехбуквенных кодов ISO 639-2 , разрешены подтеги с цифрами и принята концепция языковых диапазонов из HTTP/1.1 для упрощения сопоставления языковых тегов.

Следующая редакция спецификации появилась в сентябре 2006 года с публикацией RFC 4646 (основная часть спецификации), отредактированной Эддисоном Филипсом и Марком Дэвисом , и RFC 4647 ^[9] (который касается поведения сопоставления). RFC 4646 представил более структурированный формат для языковых тегов, добавил использование четырехбуквенных кодов сценариев ISO 15924 и трехзначных географических кодов регионов UN M.49 и заменил старый реестр тегов новым реестром подтегов. Небольшое количество ранее определенных тегов, которые не соответствовали новой структуре, были оставлены в силе для поддержания совместимости с RFC 3066.

Текущая версия спецификации, RFC 5646, ^[10] была опубликована в сентябре 2009 года. Основной целью этой редакции было включение трехбуквенных кодов из ISO 639-3 и 639-5 в Реестр языковых субтегов с целью повышения взаимодействия между ISO 639 и BCP 47. ^[11]

Синтаксис языковых тегов

Каждый языковой тег состоит из одного или нескольких «подтегов», разделенных дефисами (-). Каждый подтег состоит только из основных латинских букв или цифр.

За исключением языковых тегов частного использования, начинающихся с префикса x- , и устаревших языковых тегов (включая те, которые начинаются с префикса i- , и те, которые ранее были зарегистрированы в старом Реестре языковых тегов), подтеги располагаются в следующем порядке:

Один основной языковой субтег , основанный на двухбуквенном языковом коде из ISO 639-1 (2002) или трехбуквенном коде из ISO 639-2 (1998), ISO 639-3 (2007) или ISO 639-5 (2008), или зарегистрированный в рамках процесса BCP 47 и состоящий из пяти-восьми букв;
До трех дополнительных расширенных языковых субтегов , состоящих из трех букв каждый, разделенных дефисами; (В настоящее время в Реестре языковых субтегов не зарегистрирован ни один расширенный языковой субтег без эквивалентного и предпочтительного основного языкового субтега. Этот компонент языковых тегов сохранен для обратной совместимости и для будущих частей ISO 639.)
Необязательный субтег скрипта , основанный на четырехбуквенном коде скрипта из ISO 15924 (обычно пишется с заглавной буквы );
Необязательный субтег региона, основанный на двухбуквенном коде страны из ISO 3166-1 alpha-2 (обычно пишется заглавными буквами) или трехзначном коде из UN M.49 для географических регионов;
Необязательные субтеги вариантов , разделенные дефисами, каждый из которых состоит из пяти-восьми букв или четырех символов, начинающихся с цифры; (Субтеги вариантов зарегистрированы в IANA и не связаны с каким-либо внешним стандартом.)
Необязательные подтеги расширения , разделенные дефисами, каждый из которых состоит из одного символа, за исключением буквы x , и дефиса, за которым следует один или несколько подтегов длиной от двух до восьми символов каждый, разделенных дефисами;
Необязательный подтег для личного использования , состоящий из буквы x и дефиса, за которыми следуют подтеги длиной от одного до восьми символов каждый, разделенные дефисами.

Субтеги нечувствительны к регистру , но спецификация рекомендует использовать тот же регистр, что и в Реестре субтегов языка, где субтеги регионов — ВЕРХНИЕ БУКВЫ , субтеги сценариев — Заголовок , а все остальные субтеги — строчные . Такая заглавная буква соответствует рекомендациям базовых стандартов ISO.

Необязательные подтеги сценария и региона предпочтительно опускать, если они не добавляют никакой отличительной информации к тегу языка. Например, es предпочтительнее, чем es-Latn , поскольку испанский язык, как ожидается, будет полностью написан латиницей; ja предпочтительнее, чем ja-JP , поскольку японский язык , используемый в Японии, не отличается заметно от японского языка, используемого в других местах.

Не все языковые регионы могут быть представлены допустимым субтегом региона: субнациональные региональные диалекты основного языка регистрируются как вариантные субтеги. Например, вариантный субтег valencia для валенсийского варианта каталонского языка зарегистрирован в Реестре языковых субтегов с префиксом ca . Поскольку на этом диалекте говорят почти исключительно в Испании, региональный субтег ES обычно можно опустить.

Кроме того, существуют теги письменностей, которые не относятся к традиционным письменностям, таким как латиница, или даже к письменностям вообще, и они обычно начинаются с буквы Z. Например, Zsye относится к эмодзи , Zmth — к математической нотации , Zxxx — к неписаным документам, а Zyyy — к неопределенным письменностям.

Теги языка IETF использовались в качестве идентификаторов локалей во многих приложениях. Возможно, этим приложениям придется установить собственную стратегию определения, кодирования и сопоставления локалей, если стратегия, описанная в RFC 4647, недостаточна.

Использование, интерпретация и сопоставление языковых тегов IETF в настоящее время определены в RFC 5646 и RFC 4647. Реестр языковых субтегов содержит список всех действующих в настоящее время публичных субтегов. Частные субтеги не включены в Реестр, поскольку они зависят от реализации и являются предметом частных соглашений между третьими лицами, использующими их. Эти частные соглашения выходят за рамки BCP 47.

Список общих основных языковых субтегов

Ниже приведен список некоторых наиболее часто используемых основных языковых субтегов. Список представляет собой лишь небольшое подмножество (менее 2 процентов) основных языковых субтегов; для получения полной информации следует напрямую обратиться к Реестру языковых субтегов.

Связь с другими стандартами

Хотя некоторые типы подтегов получены из основных стандартов ISO или UN , они не следуют этим стандартам в полной мере, так как это может привести к изменению значения языковых тегов с течением времени. В частности, подтег, полученный из кода, назначенного ISO 639 , ISO 15924 , ISO 3166 или UN M49, остается допустимым (хотя и устаревшим) подтегом, даже если код изъят из соответствующего основного стандарта. Если стандарт позже присвоит новое значение изъятому коду, соответствующий подтег все равно сохранит свое старое значение.

Эта стабильность была введена в RFC 4646.

ИСО 639-3 и ИСО 639-1

RFC 4646 определил концепцию «расширенного языкового субтега» (иногда называемого extlang ), хотя в то время такие субтеги не были зарегистрированы. ^[13]^{[ проверка не пройдена ]}^[14]^{[ проверка не пройдена ]}

RFC 5645 и RFC 5646 добавили основные языковые субтеги, соответствующие кодам ISO 639-3 для всех языков, которые еще не существовали в Реестре. Кроме того, коды языков, охватываемых определенными макроязыками, были зарегистрированы как расширенные языковые субтеги. Языки жестов также были зарегистрированы как extlangs с префиксом sgn . Эти языки могут быть представлены либо только субтегом для охватываемого языка ( cmn для мандаринского диалекта), либо комбинацией язык-extlang ( zh-cmn ). Первый вариант предпочтительнее для большинства целей. Второй вариант называется «extlang form» и является новым в RFC 5646.

Целые теги, зарегистрированные до RFC 4646 и теперь классифицируемые как «старые» или «избыточные» (в зависимости от того, соответствуют ли они новому синтаксису), устарели в пользу соответствующего языкового субтега на основе ISO 639-3, если таковой существует. Вот несколько примеров: nan предпочтительнее zh-min-nan для китайского языка минь нань ; hak предпочтительнее i-hak и zh-hakka для китайского языка хакка ; и ase предпочтительнее sgn-US для американского языка жестов .

Windows Vista и более поздние версии Microsoft Windows поддерживают RFC 4646. ^[15]

ИСО 639-5 и ИСО 639-1/2

ISO 639-5 определяет языковые коллекции с кодами alpha-3 иначе, чем они изначально кодировались в ISO 639-2 (включая один код, уже присутствующий в ISO 639-1, бихари, кодируемый включительно как bh в ISO 639-1 и bih в ISO 639-2). В частности, языковые коллекции теперь все определены в ISO 639-5 как включительные, а не некоторые из них определяются исключительно. Это означает, что языковые коллекции имеют более широкую область действия, чем раньше, в некоторых случаях они могут охватывать языки, которые уже были закодированы отдельно в ISO 639-2.

Например, код ISO 639-2 afa ранее ассоциировался с названием «Афро-азиатские (другие)», исключая такие языки, как арабский, которые уже имели свой собственный код. В ISO 639-5 эта коллекция называется «Афро-азиатские языки» и включает все такие языки. ISO 639-2 изменил исключительные названия в 2009 году, чтобы соответствовать инклюзивным названиям ISO 639-5. ^[16]

Чтобы избежать нарушения реализаций, которые все еще могут зависеть от старого (исключительного) определения этих коллекций, ISO 639-5 определяет атрибут типа группировки для всех коллекций, которые уже были закодированы в ISO 639-2 (такой тип группировки не определен для новых коллекций, добавленных только в ISO 639-5).

BCP 47 определяет свойство "Scope" для идентификации подтегов для языковых коллекций. Однако он не определяет ни одну заданную коллекцию как включающую или исключающую и не использует атрибут типа группировки ISO 639-5, хотя поля описания в Реестре языковых подтегов для этих подтегов соответствуют именам ISO 639-5 (включительно). Как следствие, языковые теги BCP 47, которые включают основной языковой подтег для коллекции, могут быть неоднозначными относительно того, является ли коллекция включающей или исключающей.

ISO 639-5 не определяет точно, какие языки являются членами этих коллекций; определяется только иерархическая классификация коллекций с использованием инклюзивного определения этих коллекций. Из-за этого RFC 5646 не рекомендует использовать подтеги для языковых коллекций для большинства приложений, хотя они по-прежнему предпочтительнее подтегов, значение которых еще менее конкретно, например, «Несколько языков» и «Не определено».

Напротив, классификация отдельных языков в рамках их макроязыка стандартизирована как в ISO 639-3, так и в Реестре языковых субтегов.

ISO 15924, ISO/IEC 10646 и Юникод

Субтеги скрипта были впервые добавлены в Реестр языковых субтегов, когда был опубликован RFC 4646, из списка кодов, определенных в ISO 15924. Они кодируются в языковом теге после основных и расширенных языковых субтегов, но перед другими типами субтегов, включая региональные и вариантные субтеги.

Некоторые основные языковые субтеги определяются свойством с именем "Suppress-Script", которое указывает на случаи, когда для языка обычно может быть по умолчанию принят один сценарий, даже если он может быть записан с помощью другого сценария. В этом случае предпочтительнее опустить субтег сценария, чтобы повысить вероятность успешного сопоставления. Другой субтег сценария все равно может быть добавлен, чтобы провести различие, когда это необходимо. Например, yi предпочтительнее, чем yi-Hebr в большинстве контекстов, поскольку субтег ивритского сценария предполагается для языка идиш .

В качестве другого примера, zh-Hans-SG можно считать эквивалентом zh-Hans , поскольку региональный код, вероятно, не имеет значения; письменная форма китайского языка, используемая в Сингапуре, использует те же упрощенные китайские символы, что и в других странах, где используется китайский язык. Однако субтег сценария сохраняется, поскольку он имеет значение.

ISO 15924 включает некоторые коды для вариантов письма (например, Hans и Hant для упрощенных и традиционных форм китайских иероглифов), которые унифицированы в Unicode и ISO/IEC 10646. Эти варианты письма чаще всего кодируются для библиографических целей, но не всегда имеют значение с лингвистической точки зрения (например, коды письма Latf и Latg для вариантов латинского письма Fraktur и Gaelic, которые в основном кодируются обычными латинскими буквами в Unicode и ISO/IEC 10646). Иногда они могут быть полезны в языковых тегах для выявления орфографических или семантических различий с различным анализом букв, диакритических знаков и диграфов/триграфов как кластеров графем по умолчанию или различий в правилах регистра букв.

ISO 3166-1 и ООН М.49

Двухбуквенные субтеги регионов основаны на кодах, назначенных или «исключительно зарезервированных» в ISO 3166-1 . Если Агентство по обслуживанию ISO 3166 переназначит код, который ранее был назначен другой стране, существующий субтег BCP 47, соответствующий этому коду, сохранит свое значение, а новый субтег региона, основанный на UN M.49, будет зарегистрирован для новой страны. UN M.49 также является источником числовых субтегов регионов для географических регионов, таких как 005Южная Америка. Коды UN M.49 для экономических регионов не допускаются.

Региональные субтеги используются для указания разновидности языка, «используемой в» определенном регионе. Они уместны, когда разновидность носит региональный характер и может быть адекватно отражена путем идентификации вовлеченных стран, как при различении британского английского ( en-GB ) от американского английского ( en-US ). Когда разница заключается в письменности или разновидности письменности, как в случае упрощенных и традиционных китайских иероглифов, ее следует выразить с помощью скриптового субтега вместо регионального субтега; в этом примере следует использовать zh-Hans и zh-Hant вместо zh-CN/zh-SG/zh-MY и zh-TW/zh-HK/zh-MO .

Когда для языка, который можно считать региональным вариантом, существует отдельный языковой субтег, часто предпочтительнее использовать более конкретный субтег вместо комбинации язык-регион. Например, ar-DZ ( арабский , используемый в Алжире ) может быть лучше выражен как arq для алжирского разговорного арабского языка .

Соблюдение основных стандартов

Разногласия по поводу идентификации языка могут распространяться на BCP 47 и основные стандарты, которые его информируют. Например, некоторые носители пенджаби считают, что различие ISO 639-3 между [pan] «панджаби» и [pnb] «западный панджаби» является ложным (т. е. они считают, что это один и тот же язык ); что подвиды арабского письма должны кодироваться отдельно в ISO 15924 (как, например, фрактур и гэльский стили латинского письма); и что BCP 47 должен отражать эти взгляды и/или отменять основные стандарты в отношении них.

BCP 47 делегирует этот тип суждения основным стандартам и не пытается отменить или заменить их. Вариантные субтеги и (теоретически) основные языковые субтеги могут быть зарегистрированы индивидуально, но не таким образом, чтобы это противоречило основным стандартам. ^[17]

Расширения

Расширенные субтеги (не путать с расширенными языковыми субтегами ) позволяют прикреплять к языковому тегу дополнительную информацию, которая не обязательно служит для идентификации языка. Одним из применений расширений является кодирование информации о локали, такой как календарь и валюта.

Подтеги расширений состоят из нескольких строк символов, разделенных дефисом, начинающихся с одного символа (кроме x ), называемого синглтоном . Каждое расширение описано в своем собственном IETF RFC , который определяет регистрационный орган для управления данными для этого расширения. IANA отвечает за распределение синглтонов.

По состоянию на январь 2014 года были назначены два продления.

Расширение T (Трансформированный контент)

Расширение T позволяет языковому тегу включать информацию о том, как были транслитерированы, транскрибированы или иным образом преобразованы помеченные данные. Например, тег en-t-jp может использоваться для контента на английском языке, переведенного с оригинального японского. Дополнительные подстроки могут указывать на то, что перевод был выполнен механически или в соответствии с опубликованным стандартом.

Расширение T описано в информационном документе RFC 6497, опубликованном в феврале 2012 года. ^[18] Регистрирующим органом является Консорциум Unicode .

Расширение U (локаль Unicode)

Расширение U позволяет встраивать в языковые теги широкий спектр атрибутов локали, найденных в Common Locale Data Repository (CLDR). Эти атрибуты включают в себя подразделения стран, данные календаря и часового пояса, порядок сортировки, валюту, систему счисления и идентификацию клавиатуры.

Вот некоторые примеры:

gsw-u-sd-chzh представляет швейцарский немецкий язык , используемый в кантоне Цюрих .
ar-u-nu-latn представляет контент на арабском языке с использованием основных латинских цифр (от 0 до 9) вместо цифр арабского алфавита (от ٠ до ٩).
he-IL-u-ca-hebrew-tz-jeruslm представляет иврит, на котором говорят в Израиле, с использованием традиционного еврейского календаря и в часовом поясе «Азия/Иерусалим», как указано в базе данных tz .

Расширение U описано в информационном документе RFC 6067, опубликованном в декабре 2010 года. ^[19] Регистрирующим органом является Консорциум Unicode .

Смотрите также

Ссылки

^ abc Филлипс, Эддисон; Дэвис, Марк (сентябрь 2009 г.). «Информация о BCP 47 » Редактор RFC».
^ "Language Subtag Registry". iana.org . Internet Assigned Numbers Authority . Получено 2018-12-05 .
^ "Реестр расширений языковых тегов". iana.org . Internet Assigned Numbers Authority . Получено 2018-12-06 .
^ "IANA — Реестры протоколов". iana.org . Получено 28 июля 2015 г. .
^ Филдинг, Рой Т.; Решке, Джулиан Ф., ред. (июнь 2014 г.). «Языковые теги». Протокол передачи гипертекста (HTTP/1.1): семантика и содержимое. раздел 3.1.3.1. doi : 10.17487/RFC7231 . RFC 7231.
^ "Информация о языке и направление текста". w3.org . Получено 28 июля 2015 г. .
^ "Extensible Markup Language (XML) 1.0 (пятое издание)". w3.org . Получено 28 июля 2015 г. .
^ "Спецификация Portable Network Graphics (PNG) (Второе издание)". w3.org . Получено 28 июля 2015 г. .
^ Филлипс, Эддисон; Дэвис, Марк (сентябрь 2006 г.). «RFC 4647 — Сопоставление языковых тегов».
^ Филлипс, Эддисон; Дэвис, Марк (сентябрь 2009 г.). «RFC 5646 — Теги для идентификации языков».
^ Устав обновления реестра языковых тегов. Архивировано 10 февраля 2007 г. на Wayback Machine.
^ "Буквенные коды культур - Список". Архивировано из оригинала 2022-08-07 . Получено 2022-01-08 .
^ Эддисон Филлипс, Марк Дэвис (2008). «Теги для идентификации языков (старый проект для пересмотра RFC 4646, теперь устарел и может скоро исчезнуть)». IETF WG LTRU . Получено 23.06.2008 .
^ Doug Ewell (2008). "Обновление реестра языковых субтегов (старый проект для пересмотра RFC 4645, теперь устарел и может скоро исчезнуть)" (1 МБ) . IETF WG LTRU . Получено 23.06.2008 .
^ "Функция GetGeoInfoA (winnls.h) - приложения Win32".
^ "Список кодов языков ISO 639-2 - Коды для представления названий языков (Библиотека Конгресса)". loc.gov . Получено 28 июля 2015 г. .
^ Юэлл, Дуг (2022-08-12). "Re: [Ietf-languages] Рекомендации по исправлению кода языка пенджаби" . Получено 2022-08-12 .
^ Дэвис, М.; Филлипс, А.; Умаока, И.; Фальк, К. (февраль 2012 г.). "BCP 47 Extension T - Transformed Content". rfc-editor.org . Редактор RFC (информационный). doi : 10.17487/RFC6497 . RFC 6497 . Получено 24 июня 2022 г. .
^ Дэвис, М.; Филлипс, А.; Умаока, И. (декабрь 2010 г.). "BCP 47 Extension U". rfc-editor.org . Редактор RFC (информационный). doi : 10.17487/RFC6067 . RFC 6067 . Получено 24 июня 2022 г. .

Внешние ссылки

Теги языка BCP 47 – текущая спецификация
- содержит два RFC, опубликованных отдельно в разное время, но объединенных в один документ:
  1. RFC 4647 — Сопоставление языковых тегов
  2. RFC 5646 — Теги для идентификации языков
- (также ссылаясь на связанный информационный RFC 5645, который дополняет предыдущий информационный RFC 4645, а также на другие отдельные регистрационные формы, опубликованные отдельно другими для каждого языка, добавленного или измененного в Реестре между этими редакциями BCP 47)
Реестр языковых субтегов — поддерживается IANA
Поиск в реестре субтегов языка – поиск субтегов и просмотр записей в реестре
«Языковые теги в HTML и XML» – от W3C
«Языковые теги» — от рабочей группы IETF Language Tag Registry Update