ИСО 639

ISO 639 — это стандарт Международной организации по стандартизации (ISO), касающийся представления языков и языковых групп . В настоящее время он состоит из четырех наборов (1-3, 5) кода, названных в честь каждой части, которая ранее описывала соответствующий набор (часть 4 представляла собой руководство без собственной системы кодирования); часть 6 была опубликована, но отозвана. Впервые он был утвержден в 1967 году как Рекомендация ISO , состоящая из одной части , ISO/R 639 , ^[1] , замененная в 2002 году частью 1 новой серии ISO 639-1 , ^[2], за которой последовали дополнительные части. Все существующие части серии были объединены в единый стандарт в 2023 году ^[3] во многом на основе текста ISO 639-4.

Использование кодов ISO 639

Коды языков, определенные в нескольких разделах стандарта ISO 639, используются в библиографических целях, а в вычислительной среде и в Интернете — в качестве ключевого элемента данных локали . Коды также находят применение в различных приложениях, например, в URL-адресах Википедии для разных языковых версий.

Текущие наборы и исторические части стандарта

Каждый набор стандартов поддерживается агентством по техническому обслуживанию, которое при необходимости добавляет коды и изменяет статус кодов. ISO 639-6 был отменен в 2014 году ^[8] и не включен в ISO 639:2023.

Характеристики отдельных кодов

Области применения:

Отдельные языки
Макроязыки (набор 3)
Коллекции языков (Наборы 1, 2, 5). Некоторые коллекции уже были в наборе 2, а другие добавились только в наборе 5:
- Группы остатка: 36 коллекций как в наборе 2, так и в наборе 5 относятся к этому типу — для совместимости с набором 2, когда набор 5 еще не был опубликован, остальные группы не содержат ни одного языка и коллекций, которые уже были закодированы в наборе 2 (однако новые приложения совместимые с Набором 5, могут рассматривать эти группы включительно, если они соблюдают иерархию включения, опубликованную в Наборе 5, и используют наиболее конкретную коллекцию при группировке языков);
  - Единственная коллекция, которой ранее был присвоен код из двух алфавитов, - это Bihari (bh) в эпоху Части 1, которая устарела в июне 2021 года. ^[9]
- Обычные группы: 29 коллекций в обоих наборах 2 и 5 именно такого типа — для совместимости с набором 2 они не могут содержать другие группы;
- Семейства: 50 новых коллекций, закодированных только в Наборе 5 (включая одну, содержащую обычную группу, уже закодированную в Наборе 2) — для совместимости с Набором 2 они могут содержать другие коллекции, кроме остальных групп.
Диалекты : они должны были охватываться бывшим стандартом ISO 639-6 (предложенным, но сейчас отмененным).
Особые ситуации (наборы 2, 3).
Зарезервировано для местного использования (наборы 2, 3). Также иногда используется в приложениях, которым требуется двухбуквенный код, например стандартные коды в наборах 1 и 2 (когда специальный код misне подходит), или трехбуквенный код для коллекций, например стандартные коды в наборе 5.

Типы (для отдельных языков): ^{[ требуется обновление ]}

Живые языки (наборы 2, 3) (все макроязыки — живые языки) ^[10]
Вымершие языки (Наборы 2, 3) (599, ^[11] из них 5 входят в Набор 2: chb, chg, cop, lui, sam; ни одного нет в Наборе 1)
Древние языки (Наборы 1, 2, 3) (124, ^[12] из них 19 входят в Набор 2; а 5 из них, а именно ave, chu, lat, pliи san, также имеют код в Наборе 1: ae, cu, la, pi, sa)
Исторические языки (Наборы 2, 3) (89, ^[13] из них 16 входят в Набор 2; ни одного нет в Наборе 1)
Искусственные языки (Наборы 1, 2, 3) (23, ^[14] из них 9 в Наборе 2: afh, epo, ido, ile, , ina, jbo, tlh, vol, zbl; 5 из них в Наборе 1: eo, ia, ie, io, vo)

Отдельные языки и макроязыки с двумя разными трехбуквенными кодами в наборе 2:

Библиографические (некоторые из них устарели, ни один из них не был определен в наборе 3): это устаревшие коды (основанные на названиях языков на английском языке).
Терминологические (также определены в наборе 3): это предпочтительные коды (основанные на названиях на родном языке, при необходимости латинизированные).
Все остальные (включая наборы языков и специальные/зарезервированные коды) имеют только один трехбуквенный код для обоих вариантов использования.

Отношения между множествами

Различные наборы ISO 639 разработаны для совместной работы таким образом, что ни один код не означает одно в одном наборе, а другое — в другом. Однако не все языки входят во все наборы, и существует множество различных способов обработки конкретных языков и других элементов в разных наборах. Это зависит, например, от того, включен ли язык в наборы 1 или 2, имеет ли он отдельные коды B/T в наборе 2 или классифицируется как макроязык в наборе 3 и т.д.

Эти различные методы лечения подробно описаны в следующей таблице. В каждой группе строк (по одной для каждой области набора 3) последние четыре столбца содержат коды репрезентативного языка, который иллюстрирует определенный тип отношений между наборами ISO 639, второй столбец дает объяснение взаимосвязи, и первый столбец указывает количество элементов, имеющих этот тип отношений. Например, есть четыре элемента, которые имеют код в наборе 1, имеют код B/T и классифицируются как макроязыки в наборе 3. Одним из представителей этих четырех элементов является «персидский» fa/ per/ fas.

Эти различия обусловлены следующими факторами.

В наборе 2 ISO 639 22 отдельным языкам были присвоены два отдельных кода, а именно библиографический и терминологический код (коды B/T). ^[15] Коды B были включены по историческим причинам, поскольку предыдущие широко используемые библиографические системы использовали языковые коды, основанные на английском названии языка. Напротив, коды Набора 1 были основаны на родном названии языка, и также существовало сильное желание иметь коды Набора 2 (T-коды) для этих языков, которые были бы похожи на соответствующий двухсимвольный код в Наборе 1.

Например, немецкий язык (набор 1: de) имеет два кода в наборе 2: ger(код B) и (код T), тогда как для английского языкаdeu в наборе 2 имеется только один код .eng
Два прежних кода B были отозваны, и сегодня осталось только 20 пар кодов B/T.

Отдельные языки в Наборе 2 всегда имеют код в Наборе 3 (там повторно используется только терминологический код Набора 2), но могут иметь или не иметь код в Наборе 1, как показано в следующих примерах:

Набор 3 engсоответствует набору 2 engи набору 1.en
Набор 3 astсоответствует набору 2 ast, но в наборе 1 отсутствует код.

Некоторые коды (62) набора 3 являются макроязыками. Это группы, содержащие несколько отдельных языков, которые хорошо понимают друг друга и обычно смешиваются или путаются. Некоторые макроязыки разработали стандартную форму по умолчанию для одного из своих отдельных языков (например, для китайского макроязыка по умолчанию подразумевается мандаринский язык, при необходимости другие отдельные языки все еще можно различать, но специальный код cmnдля мандаринского языка используется редко).

Макроязык 1 имеет коды Набора 2 и Кода Набора 1, в то время как входящие в него отдельные языки также имеют коды в Наборе 1 и Наборе 2: nor/ noсодержит non/ nn, nob/ nb; или
4 макроязыка имеют два кода Набора 2 (B/T) и код Набора 1: per/ fas/ fa, may/ msa/ ms, alb/ sqi/ sqи chi/ zho/ zh;
28 макроязыков имеют код Набора 2, но не имеют кода Набора 1;
29 других макроязыков имеют коды только в наборе 3.

Коллективные коды в Наборе 2 имеют код в Наборе 5: например, ausв Наборах 2 и 5, которые обозначают австралийские языки .

Некоторые коды были добавлены в Набор 5, но не содержали кода в Наборе 2: напримерsqj

Наборы 2 и 3 также имеют зарезервированный диапазон и четыре специальных кода:

Коды qaaчерез qtzзарезервированы для локального использования.
Существует четыре специальных кода: misдля языков, которым еще не присвоен код, mulдля «несколько языков», undдля «неопределенных» и zxxдля «нет языкового содержания, неприменимо».

Кодовое пространство

Двухбуквенное кодовое пространство

Двухбуквенные (ранее «Альфа-2») идентификаторы (для кодов, состоящих из 2 букв основного латинского алфавита ISO ) используются в Наборе 1 . Когда требовались коды для более широкого диапазона языков, которые могли охватывать более двух буквенных комбинаций (максимум 26 ² = 676), Набор 2 был разработан с использованием трехбуквенных кодов. (Правда, последний был формально опубликован первым. ^[16]^[17] )

Трехбуквенное кодовое пространство

Трехбуквенные идентификаторы (ранее «Альфа-3») (для кодов, состоящих из 3 букв основного латинского алфавита ISO ) используются в Наборе 2 , Наборе 3 и Наборе 5 . Число языков и языковых групп, которые могут быть представлены таким образом, составляет 26 ³ = 17 576.

Общее использование трехбуквенных кодов тремя наборами ISO 639 требует некоторой координации в рамках более крупной системы.

Набор 2 определяет четыре специальных кода mis, mul, und, zxx, зарезервированный диапазон qaa-qtz(20 × 26 = 520 кодов) и имеет 20 двойных записей (коды B/T), а также 2 записи с устаревшими B-кодами. В сумме получается 520 + 22 + 4 = 546 кодов, которые нельзя использовать в Наборе 3 для обозначения языков или в Наборе 5 для обозначения языковых семей или групп. Остаток равен 17 576 – 546 = 17 030.

Сегодня на Земле существует где-то около шести-семи тысяч языков. ^[18] Таким образом, этих 17 030 кодов достаточно для присвоения уникального кода каждому языку, хотя некоторые языки могут иметь произвольные коды, которые совсем не похожи на традиционные названия этого языка.

Кодовое пространство Альфа-4 (снято)

Коды «Альфа-4» (для кодов, состоящих из 4 букв основного латинского алфавита ISO ) было предложено использовать в ISO 639-6 , который был отозван. Верхний предел количества языков и диалектов, которые могут быть представлены, составляет 26 ⁴ = 456 976.

Смотрите также

Примечания и ссылки

^ "ISO/R 639:1967". Международная Организация Стандартизации. 01.03.1988 . Проверено 5 августа 2012 г.
^ «ISO 639:1988». Международная Организация Стандартизации . Проверено 5 августа 2012 г.
^ «ISO 639:2023». Международная Организация Стандартизации . Проверено 15 ноября 2023 г.
^ «Коды, расположенные в алфавитном порядке по коду альфа-3/ISO 639-2» . Библиотека Конгресса. 25 июля 2013 г. Проверено 10 января 2019 г.
^ «Коды ISO-639-2» . Библиотека Конгресса . Проверено 10 января 2019 г.
^ «Набор кодов ISO 639-3 (UTF-8)» . СИЛ Интернешнл . Проверено 12 июля 2023 г.
^ «Коды ISO 639-5, упорядоченные по идентификатору» . Офис развития сети и стандартизации MARC . Библиотека Конгресса . Проверено 12 декабря 2018 г.
^ ИСО 639-6:2009, ИСО .
^ ab SIL International (14 июня 2021 г.). «Изменение языкового кода части 1». ИСО 639-3 .
^ «Кодовые таблицы ISO 639: макроязыки» . Сил.орг . Проверено 5 августа 2012 г.
^ «Кодовые таблицы ISO 639: вымерли» . Сил.орг . Проверено 5 августа 2012 г.
^ «Кодовые таблицы ISO 639: древние» . Сил.орг . Проверено 10 января 2019 г.
^ «Кодовые таблицы ISO 639: исторические» . Сил.орг . Проверено 5 августа 2012 г.
^ «Кодовые таблицы ISO 639: построены» . Сил.орг . Проверено 7 февраля 2022 г.
^ «ISO 639-2 – Часто задаваемые вопросы» . Библиотека Конгресса. 05 мая 2014 г. Проверено 12 декабря 2014 г.
^ «Коды для представления названий языков. Часть 2: Код Alpha-3». Международная организация по стандартизации . ИСО . Проверено 10 января 2019 г. Дата публикации: 1998-10 гг.
^ «Коды для представления названий языков. Часть 1: Код Alpha-2». Международная организация по стандартизации . ИСО . Проверено 15 февраля 2018 г. Дата публикации: 2002-07.
^ «Статистические сводки». Этнолог . Проверено 5 августа 2012 г.

Внешние ссылки

Официальный ISO 639-1/RA (Регистрационный орган) Infoterm
Официальный ISO 639-2/RA (Регистрационный орган) Библиотека Конгресса
Официальный ISO 639-3/RA (Регистрационный орган) SIL International
Официальный ISO 693-5/RA (Регистрационный орган) Библиотека Конгресса
Общий репозиторий региональных данных, который содержит переводы кодов ISO 639 на другие языки в формате XML. Инструмент опроса CLDR также содержит более читаемый формат данных.