ИСО 639

ISO 639 — это стандарт Международной организации по стандартизации (ИСО), касающийся представления языков и языковых групп . В настоящее время он состоит из четырех наборов (1-3, 5) кода, названных в честь каждой части, которая ранее описывала соответствующий набор (часть 4 была руководством без собственной системы кодирования); часть 6 была опубликована, но отозвана. Впервые он был утвержден в 1967 году как Рекомендация ИСО из одной части , ISO/R 639 , ^[1] замененная в 2002 году частью 1 новой серии, ISO 639-1 , ^[2] за которой последовали дополнительные части. Все существующие части серии были объединены в единый стандарт в 2023 году, ^[3] в значительной степени основанный на тексте ISO 639-4.

Использование кодов ISO 639

Коды языков, определенные в нескольких разделах ISO 639, используются в библиографических целях, а также в вычислительной и интернет-среде в качестве ключевого элемента данных локали . Коды также находят применение в различных приложениях, таких как URL-адреса Wikipedia для ее различных языковых версий.

История

Ранняя форма системы кодирования языков ISO была представлена в ISO/R 639:1967 под названием « Символы для языков, стран и органов власти », которая была направлена в основном на регулирование словарей, обозначающих языки, страны и агентства по стандартизации организаций-членов ISO. Ее «языковые символы» состояли из одно- или двухбуквенных идентификаторов переменной длины в заглавных латинских алфавитах, например, Eили Enдля английского языка; S, Sp, или Esдля испанского языка; и Inдля индонезийского языка. Также разрешалось использовать (версию до 1993 года) вспомогательные числительные UDC для обозначения языков.

После отделения кода страны от стандарта ISO 3166 в 1974 году было опубликовано первое издание стандарта ISO 639:1988 «Код для представления названий языков» с набором единообразных двухбуквенных идентификаторов в строчных латинских алфавитах, в основном идентичных по формату и словарю текущему стандарту ISO 639 Set 1.

С тех пор стандарт был принят в качестве фундаментальной технологии быстро развивающейся компьютерной индустрии (RFC 1766), что привело к разработке более выразительной трехбуквенной структуры, опубликованной как ISO 639-2:1998, в значительной степени основанной на кодах MARC для языков. Первоначальная двухбуквенная система была переопределена как ISO 639-1 в 2001 году.

В поисках более обширной поддержки языков для расширяющихся приложений были созданы отдельные надмножества пространства имен ISO 639-2, которые охватывают отдельные языки и группы, как ISO 639-3 и ISO 639-5 соответственно. Была также попытка кодировать более точные варианты языка с использованием четырехбуквенных идентификаторов как ISO 639-6, который позже был отозван и реорганизован в рамках другой структуры, ISO 21636.

Относительно постоянные обновления частей ISO 639 осуществлялись каждым ответственным органом самостоятельно до публикации ISO 639:2023, который гармонизировал и воссоединил основной текст прежних стандартов и повлек за собой организационные изменения с совместным агентством по техническому обслуживанию, контролирующим все комплекты и выпускающим информационные бюллетени[1].

Текущие наборы и исторические части стандарта

Каждый набор стандарта поддерживается агентством по обслуживанию, которое добавляет коды и изменяет статус кодов по мере необходимости. ISO 639-6 был отозван в 2014 году ^[8] и не включен в ISO 639:2023.

Характеристики отдельных кодов

Области применения:

Отдельные языки
Макроязыки (Набор 3)
Коллекции языков (Наборы 1, 2, 5). Некоторые коллекции уже были в Наборе 2, а другие были добавлены только в Наборе 5:
- Оставшиеся группы: 36 коллекций в наборах 2 и 5 относятся к этому типу — для совместимости с набором 2, когда набор 5 еще не был опубликован, оставшиеся группы не содержат ни одного языка и коллекции, которые уже были закодированы в наборе 2 (однако новые приложения, совместимые с набором 5, могут рассматривать эти группы включительно, если они соблюдают иерархию включения, опубликованную в наборе 5, и используют наиболее конкретную коллекцию при группировке языков);
  - Единственная коллекция, которой ранее был присвоен двухбуквенный код, — это бихари (bh) в эпоху Части 1, которая устарела в июне 2021 года. ^[9]
- Регулярные группы: 29 коллекций в наборах 2 и 5 относятся к этому типу — для совместимости с набором 2 они не могут содержать другие группы;
- Семейства: 50 новых коллекций, закодированных только в наборе 5 (включая одну, содержащую обычную группу, уже закодированную в наборе 2) — для совместимости с набором 2 они могут содержать другие коллекции, кроме остаточных групп.
Диалекты : они должны были быть охвачены бывшим стандартом ISO 639-6 (предложенным, но теперь отозванным).
Особые ситуации (Наборы 2, 3).
Зарезервировано для локального использования (наборы 2, 3). Также иногда используется в приложениях, требующих двухбуквенного кода, например, стандартных кодов в наборах 1 и 2 (где специальный код misне подходит), или трехбуквенного кода для коллекций, например, стандартных кодов в наборе 5.

Типы (для отдельных языков): ^{[ требуется обновление ]}

Живые языки (Наборы 2, 3) (кроме санскрита, все остальные макроязыки являются живыми языками) ^[10]
Вымершие языки (Наборы 2, 3) (599, ^[11] 5 из них входят в Набор 2: chb, chg, cop, lui, sam; ни один не входит в Набор 1)
Древние языки (Наборы 1, 2, 3) (124, ^[12] 19 из них находятся в Наборе 2; и 5 из них, а именно ave, chu, lat, pliи san, также имеют код в Наборе 1: ae, cu, la, pi, sa)
Исторические языки (Наборы 2, 3) (89, ^[13] 16 из них входят в Набор 2; ни одного — в Набор 1)
Искусственные языки (Наборы 1, 2, 3) (23, ^[14] 9 из них в Наборе 2: afh, epo, ido, ile, ina, jbo, tlh, vol, zbl; 5 из них в Наборе 1: eo, ia, ie, io, vo)

Отдельные языки и макроязыки с двумя различными трехбуквенными кодами в Наборе 2:

Библиографические (некоторые из них устарели, ни один из них не был определен в Наборе 3): это устаревшие коды (основанные на названиях языков на английском языке).
Терминология (также определена в Наборе 3): это предпочтительные коды (основанные на названиях на родном языке, при необходимости романизированные).
Все остальные (включая наборы языков и специальные/зарезервированные коды) имеют только один трехбуквенный код для обоих вариантов использования.

Отношения между множествами

Различные наборы ISO 639 разработаны для совместной работы таким образом, что ни один код не означает одно в одном наборе и что-то другое в другом. Однако не все языки присутствуют во всех наборах, и существует множество различных способов, которыми определенные языки и другие элементы обрабатываются в различных наборах. Это зависит, например, от того, указан ли язык в Наборах 1 или 2, имеет ли он отдельные коды B/T в Наборе 2 или классифицируется как макроязык в Наборе 3 и т. д.

Эти различные обработки подробно описаны в следующей таблице. В каждой группе строк (по одной для каждой области действия Set 3) последние четыре столбца содержат коды для репрезентативного языка, который иллюстрирует определенный тип связи между наборами ISO 639, второй столбец дает объяснение связи, а первый столбец указывает количество элементов, которые имеют этот тип связи. Например, есть четыре элемента, которые имеют код в Set 1, имеют код B/T и классифицируются как макроязыки в Set 3. Одним из представителей этих четырех элементов является «персидский» fa/ per/ fas.

Эти различия обусловлены следующими факторами.

В ISO 639 Set 2 два отдельных кода были назначены 22 отдельным языкам, а именно библиографический и терминологический коды (коды B/T). ^[15] Коды B были включены по историческим причинам, поскольку предыдущие широко используемые библиографические системы использовали языковые коды, основанные на английском названии языка. Напротив, коды Set 1 были основаны на родном названии языка, и также было сильное желание иметь коды Set 2 (коды T) для этих языков, которые были бы похожи на соответствующий 2-символьный код в Set 1.

Например, немецкий язык (Набор 1: de) имеет два кода в Наборе 2: ger(код B) и (код T), тогда как для английского языкаdeu в Наборе 2 есть только один код, , .eng
Два бывших кода B были отменены, и на сегодняшний день осталось только 20 пар кодов B/T.

Отдельные языки из Набора 2 всегда имеют код в Наборе 3 (там повторно используется только код терминологии Набора 2), но могут иметь или не иметь код в Наборе 1, как показано в следующих примерах:

Набор 3 engсоответствует Набору 2 engи Набору 1en
Набор 3 astсоответствует набору 2 ast, но в наборе 1 отсутствует код.

Некоторые коды (62) в наборе 3 являются макроязыками. Это группы, содержащие несколько отдельных языков, которые хорошо понимают друг друга и часто смешиваются или путаются. Некоторые макроязыки разработали стандартную форму по умолчанию для одного из своих отдельных языков (например, мандарин подразумевается по умолчанию для китайского макроязыка, другие отдельные языки могут по-прежнему различаться при необходимости, но конкретный код cmnдля мандарина используется редко).

1 макроязык имеет код Set 2 и код Set 1, в то время как его отдельные языки-члены также имеют коды в Set 1 и Set 2: nor/ noсодержит non/ nn, nob/ nb; или
4 макроязыка имеют два кода Set 2 (B/T) и код Set 1: per/ fas/ fa, may/ msa/ ms, alb/ sqi/ sq, и chi/ zho/ zh;
28 макроязыков имеют код Set 2, но не имеют кода Set 1;
29 других макроязыков имеют коды только из набора 3.

Коллективные коды в Наборе 2 имеют код в Наборе 5: например, ausв Наборах 2 и 5, который обозначает австралийские языки .

Некоторые коды были добавлены в Набор 5, но не имели кода в Наборе 2: напримерsqj

Наборы 2 и 3 также имеют зарезервированный диапазон и четыре специальных кода:

Коды, qaaуказанные ниже, qtzзарезервированы для локального использования.
Существует четыре специальных кода: misдля языков, которым еще не назначен код, mulдля «нескольких языков», undдля «неопределенного» и zxxдля «нет языкового содержания, неприменимо».

Кодовое пространство

Двухбуквенный кодовый пробел

Двухбуквенные (ранее «Альфа-2») идентификаторы (для кодов, состоящих из 2 букв базового латинского алфавита ISO ) используются в Наборе 1. Когда требовались коды для более широкого диапазона языков, и можно было охватить более 2 буквенных комбинаций (максимум 26 ² = 676), Набор 2 был разработан с использованием трехбуквенных кодов. (Однако последний был официально опубликован первым. ^[16]^[17] )

Трехбуквенный кодовый пробел

Трехбуквенные (ранее «Альфа-3») идентификаторы (для кодов, состоящих из 3 букв базового латинского алфавита ISO ) используются в Наборе 2 , Наборе 3 и Наборе 5. Количество языков и языковых групп, которые могут быть представлены таким образом, составляет 26 ³ = 17 576.

Общее использование трехбуквенных кодов тремя наборами ISO 639 требует определенной координации в рамках более крупной системы.

Набор 2 определяет четыре специальных кода mis, mul, und, zxx, зарезервированный диапазон qaa-qtz(20 × 26 = 520 кодов) и имеет 20 двойных записей (коды B/T), плюс 2 записи с устаревшими B-кодами. Это в сумме дает 520 + 22 + 4 = 546 кодов, которые нельзя использовать в наборе 3 для представления языков или в наборе 5 для представления языковых семей или групп. Остаток составляет 17 576 – 546 = 17 030.

Сегодня на Земле существует около шести-семи тысяч языков. ^[18] Таким образом, этих 17 030 кодов достаточно, чтобы присвоить уникальный код каждому языку, хотя некоторые языки могут получить произвольные коды, которые звучат совсем не так, как традиционные названия этого языка.

Кодовое пространство Alpha-4 (снято)

Коды "Alpha-4" (для кодов, состоящих из 4 букв базового латинского алфавита ISO ) были предложены для использования в ISO 639-6 , который был отозван. Верхний предел для числа языков и диалектов, которые могут быть представлены, составляет 26 ⁴ = 456 976.

Смотрите также

Примечания и ссылки

^ "ISO/R 639:1967". Международная организация по стандартизации. 1988-03-01 . Получено 5 августа 2012 г.
^ "ISO 639:1988". Международная организация по стандартизации . Получено 2012-08-05 .
^ "ISO 639:2023". Международная организация по стандартизации . Получено 2023-11-15 .
^ "Коды, упорядоченные в алфавитном порядке по коду alpha-3/ISO 639-2". Библиотека Конгресса. 2013-07-25 . Получено 2019-01-10 .
^ "ISO-639-2 Codes". Библиотека Конгресса . Получено 2019-01-10 .
^ "Набор кодов ISO 639-3 (UTF-8)". SIL International . Получено 2023-07-12 .
^ "Коды ISO 639-5, упорядоченные по идентификатору". Network Development & MARC Standards Office . Библиотека Конгресса . Получено 12 декабря 2018 г.
^ ИСО 639-6:2009, ИСО .
^ ab SIL International (14.06.2021). «Изменение кода языка части 1». ISO 639-3 .
^ "Таблицы кодов ISO 639: макроязыки". Sil.org . Получено 2012-08-05 .
^ "Таблицы кодов ISO 639: вымерли". Sil.org . Получено 2012-08-05 .
^ "Таблицы кодов ISO 639: древние". Sil.org . Получено 2019-01-10 .
^ "Таблицы кодов ISO 639: исторические". Sil.org . Получено 2012-08-05 .
^ "Таблицы кодов ISO 639: сконструированы". Sil.org . Получено 2022-02-07 .
^ "ISO 639-2 – Часто задаваемые вопросы". Библиотека Конгресса. 2014-05-05 . Получено 2014-12-12 .
^ "Коды для представления названий языков -- Часть 2: Код Alpha-3". Международная организация по стандартам . ISO . Получено 10 января 2019 г. . Дата публикации : 1998-10
^ "Коды для представления названий языков -- Часть 1: Код Alpha-2". Международная организация по стандартам . ISO . Получено 15 февраля 2018 г. Дата публикации : 2002-07
^ "Статистические сводки". Ethnologue . Получено 2012-08-05 .

Внешние ссылки

Официальный ISO 639-1/RA (регистрационный орган) Инфотерм
Официальный ISO 639-2/RA (Орган регистрации) Библиотека Конгресса
Официальный ISO 639-3/RA (Орган регистрации) SIL International
Официальный ISO 693-5/RA (Орган регистрации) Библиотека Конгресса
Common Locale Data Repository, содержащий переводы кодов ISO 639 на другие языки в формате XML. Инструмент опроса CLDR также содержит более читаемый формат данных.