ISO 639 — это стандарт Международной организации по стандартизации (ИСО), касающийся представления языков и языковых групп . В настоящее время он состоит из четырех наборов (1-3, 5) кода, названных в честь каждой части, которая ранее описывала соответствующий набор (часть 4 была руководством без собственной системы кодирования); часть 6 была опубликована, но отозвана. Впервые он был утвержден в 1967 году как Рекомендация ИСО из одной части , ISO/R 639 , [1] замененная в 2002 году частью 1 новой серии, ISO 639-1 , [2] за которой последовали дополнительные части. Все существующие части серии были объединены в единый стандарт в 2023 году, [3] в значительной степени основанный на тексте ISO 639-4.
Коды языков, определенные в нескольких разделах ISO 639, используются в библиографических целях, а также в вычислительной и интернет-среде в качестве ключевого элемента данных локали . Коды также находят применение в различных приложениях, таких как URL-адреса Wikipedia для ее различных языковых версий.
Ранняя форма системы кодирования языков ISO была представлена в ISO/R 639:1967 под названием « Символы для языков, стран и органов власти », которая была направлена в основном на регулирование словарей, обозначающих языки, страны и агентства по стандартизации организаций-членов ISO. Ее «языковые символы» состояли из одно- или двухбуквенных идентификаторов переменной длины в заглавных латинских алфавитах, например, E
или En
для английского языка; S
, Sp
, или Es
для испанского языка; и In
для индонезийского языка. Также разрешалось использовать (версию до 1993 года) вспомогательные числительные UDC для обозначения языков.
После отделения кода страны от стандарта ISO 3166 в 1974 году было опубликовано первое издание стандарта ISO 639:1988 «Код для представления названий языков» с набором единообразных двухбуквенных идентификаторов в строчных латинских алфавитах, в основном идентичных по формату и словарю текущему стандарту ISO 639 Set 1.
С тех пор стандарт был принят в качестве фундаментальной технологии быстро развивающейся компьютерной индустрии (RFC 1766), что привело к разработке более выразительной трехбуквенной структуры, опубликованной как ISO 639-2:1998, в значительной степени основанной на кодах MARC для языков. Первоначальная двухбуквенная система была переопределена как ISO 639-1 в 2001 году.
В поисках более обширной поддержки языков для расширяющихся приложений были созданы отдельные надмножества пространства имен ISO 639-2, которые охватывают отдельные языки и группы, как ISO 639-3 и ISO 639-5 соответственно. Была также попытка кодировать более точные варианты языка с использованием четырехбуквенных идентификаторов как ISO 639-6, который позже был отозван и реорганизован в рамках другой структуры, ISO 21636.
Относительно постоянные обновления частей ISO 639 осуществлялись каждым ответственным органом самостоятельно до публикации ISO 639:2023, который гармонизировал и воссоединил основной текст прежних стандартов и повлек за собой организационные изменения с совместным агентством по техническому обслуживанию, контролирующим все комплекты и выпускающим информационные бюллетени[1].
Каждый набор стандарта поддерживается агентством по обслуживанию, которое добавляет коды и изменяет статус кодов по мере необходимости. ISO 639-6 был отозван в 2014 году [8] и не включен в ISO 639:2023.
Области применения:
mis
не подходит), или трехбуквенного кода для коллекций, например, стандартных кодов в наборе 5.Типы (для отдельных языков): [ требуется обновление ]
chb
, chg
, cop
, lui
, sam
; ни один не входит в Набор 1)ave
, chu
, lat
, pli
и san
, также имеют код в Наборе 1: ae
, cu
, la
, pi
, sa
)afh
, epo
, ido
, ile
, ina
, jbo
, tlh
, vol
, zbl
; 5 из них в Наборе 1: eo
, ia
, ie
, io
, vo
)Отдельные языки и макроязыки с двумя различными трехбуквенными кодами в Наборе 2:
Различные наборы ISO 639 разработаны для совместной работы таким образом, что ни один код не означает одно в одном наборе и что-то другое в другом. Однако не все языки присутствуют во всех наборах, и существует множество различных способов, которыми определенные языки и другие элементы обрабатываются в различных наборах. Это зависит, например, от того, указан ли язык в Наборах 1 или 2, имеет ли он отдельные коды B/T в Наборе 2 или классифицируется как макроязык в Наборе 3 и т. д.
Эти различные обработки подробно описаны в следующей таблице. В каждой группе строк (по одной для каждой области действия Set 3) последние четыре столбца содержат коды для репрезентативного языка, который иллюстрирует определенный тип связи между наборами ISO 639, второй столбец дает объяснение связи, а первый столбец указывает количество элементов, которые имеют этот тип связи. Например, есть четыре элемента, которые имеют код в Set 1, имеют код B/T и классифицируются как макроязыки в Set 3. Одним из представителей этих четырех элементов является «персидский» fa
/ per
/ fas
.
Эти различия обусловлены следующими факторами.
В ISO 639 Set 2 два отдельных кода были назначены 22 отдельным языкам, а именно библиографический и терминологический коды (коды B/T). [15] Коды B были включены по историческим причинам, поскольку предыдущие широко используемые библиографические системы использовали языковые коды, основанные на английском названии языка. Напротив, коды Set 1 были основаны на родном названии языка, и также было сильное желание иметь коды Set 2 (коды T) для этих языков, которые были бы похожи на соответствующий 2-символьный код в Set 1.
de
) имеет два кода в Наборе 2: ger
(код B) и (код T), тогда как для английского языкаdeu
в Наборе 2 есть только один код, , .eng
Отдельные языки из Набора 2 всегда имеют код в Наборе 3 (там повторно используется только код терминологии Набора 2), но могут иметь или не иметь код в Наборе 1, как показано в следующих примерах:
eng
соответствует Набору 2 eng
и Набору 1en
ast
соответствует набору 2 ast
, но в наборе 1 отсутствует код.Некоторые коды (62) в наборе 3 являются макроязыками. Это группы, содержащие несколько отдельных языков, которые хорошо понимают друг друга и часто смешиваются или путаются. Некоторые макроязыки разработали стандартную форму по умолчанию для одного из своих отдельных языков (например, мандарин подразумевается по умолчанию для китайского макроязыка, другие отдельные языки могут по-прежнему различаться при необходимости, но конкретный код cmn
для мандарина используется редко).
nor
/ no
содержит non
/ nn
, nob
/ nb
; илиper
/ fas
/ fa
, may
/ msa
/ ms
, alb
/ sqi
/ sq
, и chi
/ zho
/ zh
;Коллективные коды в Наборе 2 имеют код в Наборе 5: например, aus
в Наборах 2 и 5, который обозначает австралийские языки .
sqj
Наборы 2 и 3 также имеют зарезервированный диапазон и четыре специальных кода:
qaa
указанные ниже, qtz
зарезервированы для локального использования.mis
для языков, которым еще не назначен код, mul
для «нескольких языков», und
для «неопределенного» и zxx
для «нет языкового содержания, неприменимо».Двухбуквенные (ранее «Альфа-2») идентификаторы (для кодов, состоящих из 2 букв базового латинского алфавита ISO ) используются в Наборе 1. Когда требовались коды для более широкого диапазона языков, и можно было охватить более 2 буквенных комбинаций (максимум 26 2 = 676), был разработан Набор 2 с использованием трехбуквенных кодов. (Однако последний был официально опубликован первым. [16] [17] )
Трехбуквенные (ранее «Альфа-3») идентификаторы (для кодов, состоящих из 3 букв базового латинского алфавита ISO ) используются в Наборе 2 , Наборе 3 и Наборе 5. Количество языков и языковых групп, которые могут быть представлены таким образом, составляет 26 3 = 17 576.
Общее использование трехбуквенных кодов тремя наборами ISO 639 требует определенной координации в рамках более крупной системы.
Набор 2 определяет четыре специальных кода mis
, mul
, und
, zxx
, зарезервированный диапазон qaa-qtz
(20 × 26 = 520 кодов) и имеет 20 двойных записей (коды B/T), плюс 2 записи с устаревшими B-кодами. Это в сумме дает 520 + 22 + 4 = 546 кодов, которые нельзя использовать в наборе 3 для представления языков или в наборе 5 для представления языковых семей или групп. Остаток составляет 17 576 – 546 = 17 030.
Сегодня на Земле существует около шести-семи тысяч языков. [18] Таким образом, этих 17 030 кодов достаточно, чтобы присвоить уникальный код каждому языку, хотя некоторые языки могут получить произвольные коды, которые звучат совсем не так, как традиционные названия этого языка.
Коды "Alpha-4" (для кодов, состоящих из 4 букв базового латинского алфавита ISO ) были предложены для использования в ISO 639-6 , который был отозван. Верхний предел для числа языков и диалектов, которые могут быть представлены, составляет 26 4 = 456 976.
Дата публикации : 1998-10
публикации : 2002-07