stringtranslate.com

ИСО 639

ISO 639 — это стандарт Международной организации по стандартизации (ИСО), касающийся представления языков и языковых групп . В настоящее время он состоит из четырех наборов (1-3, 5) кода, названных в честь каждой части, которая ранее описывала соответствующий набор (часть 4 была руководством без собственной системы кодирования); часть 6 была опубликована, но отозвана. Впервые он был утвержден в 1967 году как Рекомендация ИСО из одной части , ISO/R 639 , [1] замененная в 2002 году частью 1 новой серии, ISO 639-1 , [2] за которой последовали дополнительные части. Все существующие части серии были объединены в единый стандарт в 2023 году, [3] в значительной степени основанный на тексте ISO 639-4.

Использование кодов ISO 639

Коды языков, определенные в нескольких разделах ISO 639, используются в библиографических целях, а также в вычислительной и интернет-среде в качестве ключевого элемента данных локали . Коды также находят применение в различных приложениях, таких как URL-адреса Wikipedia для ее различных языковых версий.

История

Ранняя форма системы кодирования языков ISO была представлена ​​в ISO/R 639:1967 под названием « Символы для языков, стран и органов власти », которая была направлена ​​в основном на регулирование словарей, обозначающих языки, страны и агентства по стандартизации организаций-членов ISO. Ее «языковые символы» состояли из одно- или двухбуквенных идентификаторов переменной длины в заглавных латинских алфавитах, например, Eили Enдля английского языка; S, Sp, или Esдля испанского языка; и Inдля индонезийского языка. Также разрешалось использовать (версию до 1993 года) вспомогательные числительные UDC для обозначения языков.

После отделения кода страны от стандарта ISO 3166 в 1974 году было опубликовано первое издание стандарта ISO 639:1988 «Код для представления названий языков» с набором единообразных двухбуквенных идентификаторов в строчных латинских алфавитах, в основном идентичных по формату и словарю текущему стандарту ISO 639 Set 1.

С тех пор стандарт был принят в качестве фундаментальной технологии быстро развивающейся компьютерной индустрии (RFC 1766), что привело к разработке более выразительной трехбуквенной структуры, опубликованной как ISO 639-2:1998, в значительной степени основанной на кодах MARC для языков. Первоначальная двухбуквенная система была переопределена как ISO 639-1 в 2001 году.

В поисках более обширной поддержки языков для расширяющихся приложений были созданы отдельные надмножества пространства имен ISO 639-2, которые охватывают отдельные языки и группы, как ISO 639-3 и ISO 639-5 соответственно. Была также попытка кодировать более точные варианты языка с использованием четырехбуквенных идентификаторов как ISO 639-6, который позже был отозван и реорганизован в рамках другой структуры, ISO 21636.

Относительно постоянные обновления частей ISO 639 осуществлялись каждым ответственным органом самостоятельно до публикации ISO 639:2023, который гармонизировал и воссоединил основной текст прежних стандартов и повлек за собой организационные изменения с совместным агентством по техническому обслуживанию, контролирующим все комплекты и выпускающим информационные бюллетени[1].

Текущие наборы и исторические части стандарта

Каждый набор стандарта поддерживается агентством по обслуживанию, которое добавляет коды и изменяет статус кодов по мере необходимости. ISO 639-6 был отозван в 2014 году [8] и не включен в ISO 639:2023.

Характеристики отдельных кодов

Области применения:

Типы (для отдельных языков): [ требуется обновление ]

Отдельные языки и макроязыки с двумя различными трехбуквенными кодами в Наборе 2:

Отношения между множествами

Различные наборы ISO 639 разработаны для совместной работы таким образом, что ни один код не означает одно в одном наборе и что-то другое в другом. Однако не все языки присутствуют во всех наборах, и существует множество различных способов, которыми определенные языки и другие элементы обрабатываются в различных наборах. Это зависит, например, от того, указан ли язык в Наборах 1 или 2, имеет ли он отдельные коды B/T в Наборе 2 или классифицируется как макроязык в Наборе 3 и т. д.

Эти различные обработки подробно описаны в следующей таблице. В каждой группе строк (по одной для каждой области действия Set 3) последние четыре столбца содержат коды для репрезентативного языка, который иллюстрирует определенный тип связи между наборами ISO 639, второй столбец дает объяснение связи, а первый столбец указывает количество элементов, которые имеют этот тип связи. Например, есть четыре элемента, которые имеют код в Set 1, имеют код B/T и классифицируются как макроязыки в Set 3. Одним из представителей этих четырех элементов является «персидский» fa/ per/ fas.

Эти различия обусловлены следующими факторами.

В ISO 639 Set 2 два отдельных кода были назначены 22 отдельным языкам, а именно библиографический и терминологический коды (коды B/T). [15] Коды B были включены по историческим причинам, поскольку предыдущие широко используемые библиографические системы использовали языковые коды, основанные на английском названии языка. Напротив, коды Set 1 были основаны на родном названии языка, и также было сильное желание иметь коды Set 2 (коды T) для этих языков, которые были бы похожи на соответствующий 2-символьный код в Set 1.

Отдельные языки из Набора 2 всегда имеют код в Наборе 3 (там повторно используется только код терминологии Набора 2), но могут иметь или не иметь код в Наборе 1, как показано в следующих примерах:

Некоторые коды (62) в наборе 3 являются макроязыками. Это группы, содержащие несколько отдельных языков, которые хорошо понимают друг друга и часто смешиваются или путаются. Некоторые макроязыки разработали стандартную форму по умолчанию для одного из своих отдельных языков (например, мандарин подразумевается по умолчанию для китайского макроязыка, другие отдельные языки могут по-прежнему различаться при необходимости, но конкретный код cmnдля мандарина используется редко).

Коллективные коды в Наборе 2 имеют код в Наборе 5: например, ausв Наборах 2 и 5, который обозначает австралийские языки .

Наборы 2 и 3 также имеют зарезервированный диапазон и четыре специальных кода:

Кодовое пространство

Двухбуквенный кодовый пробел

Двухбуквенные (ранее «Альфа-2») идентификаторы (для кодов, состоящих из 2 букв базового латинского алфавита ISO ) используются в Наборе 1. Когда требовались коды для более широкого диапазона языков, и можно было охватить более 2 буквенных комбинаций (максимум 26 2 = 676), Набор 2 был разработан с использованием трехбуквенных кодов. (Однако последний был официально опубликован первым. [16] [17] )

Трехбуквенный кодовый пробел

Трехбуквенные (ранее «Альфа-3») идентификаторы (для кодов, состоящих из 3 букв базового латинского алфавита ISO ) используются в Наборе 2 , Наборе 3 и Наборе 5. Количество языков и языковых групп, которые могут быть представлены таким образом, составляет 26 3 = 17 576.

Общее использование трехбуквенных кодов тремя наборами ISO 639 требует определенной координации в рамках более крупной системы.

Набор 2 определяет четыре специальных кода mis, mul, und, zxx, зарезервированный диапазон qaa-qtz(20 × 26 = 520 кодов) и имеет 20 двойных записей (коды B/T), плюс 2 записи с устаревшими B-кодами. Это в сумме дает 520 + 22 + 4 = 546 кодов, которые нельзя использовать в наборе 3 для представления языков или в наборе 5 для представления языковых семей или групп. Остаток составляет 17 576 – 546 = 17 030.

Сегодня на Земле существует около шести-семи тысяч языков. [18] Таким образом, этих 17 030 кодов достаточно, чтобы присвоить уникальный код каждому языку, хотя некоторые языки могут получить произвольные коды, которые звучат совсем не так, как традиционные названия этого языка.

Кодовое пространство Alpha-4 (снято)

Коды "Alpha-4" (для кодов, состоящих из 4 букв базового латинского алфавита ISO ) были предложены для использования в ISO 639-6 , который был отозван. Верхний предел для числа языков и диалектов, которые могут быть представлены, составляет 26 4 = 456 976.

Смотрите также

Примечания и ссылки

  1. ^ "ISO/R 639:1967". Международная организация по стандартизации. 1988-03-01 . Получено 5 августа 2012 г.
  2. ^ "ISO 639:1988". Международная организация по стандартизации . Получено 2012-08-05 .
  3. ^ "ISO 639:2023". Международная организация по стандартизации . Получено 2023-11-15 .
  4. ^ "Коды, упорядоченные в алфавитном порядке по коду alpha-3/ISO 639-2". Библиотека Конгресса. 2013-07-25 . Получено 2019-01-10 .
  5. ^ "ISO-639-2 Codes". Библиотека Конгресса . Получено 2019-01-10 .
  6. ^ "Набор кодов ISO 639-3 (UTF-8)". SIL International . Получено 2023-07-12 .
  7. ^ "Коды ISO 639-5, упорядоченные по идентификатору". Network Development & MARC Standards Office . Библиотека Конгресса . Получено 12 декабря 2018 г.
  8. ^ ИСО 639-6:2009, ИСО .
  9. ^ ab SIL International (14.06.2021). «Изменение кода языка части 1». ISO 639-3 .
  10. ^ "Таблицы кодов ISO 639: макроязыки". Sil.org . Получено 2012-08-05 .
  11. ^ "Таблицы кодов ISO 639: вымерли". Sil.org . Получено 2012-08-05 .
  12. ^ "Таблицы кодов ISO 639: древние". Sil.org . Получено 2019-01-10 .
  13. ^ "Таблицы кодов ISO 639: исторические". Sil.org . Получено 2012-08-05 .
  14. ^ "Таблицы кодов ISO 639: сконструированы". Sil.org . Получено 2022-02-07 .
  15. ^ "ISO 639-2 – Часто задаваемые вопросы". Библиотека Конгресса. 2014-05-05 . Получено 2014-12-12 .
  16. ^ "Коды для представления названий языков -- Часть 2: Код Alpha-3". Международная организация по стандартам . ISO . Получено 10 января 2019 г. . Дата публикации : 1998-10
  17. ^ "Коды для представления названий языков -- Часть 1: Код Alpha-2". Международная организация по стандартам . ISO . Получено 15 февраля 2018 г. Дата публикации : 2002-07
  18. ^ "Статистические сводки". Ethnologue . Получено 2012-08-05 .

Внешние ссылки