ИСО 639-3

ISO 639-3:2007 , Коды для представления названий языков. Часть 3: Код Alpha-3 для всестороннего охвата языков , является международным стандартом для языковых кодов серии ISO 639 . Он определяет трехбуквенные коды для идентификации языков. Стандарт был опубликован Международной организацией по стандартизации (ISO) 1 февраля 2007 года. ^[1]

ISO 639-3 расширяет коды ISO 639-2 альфа-3 с целью охватить все известные естественные языки . Расширенный языковой охват был основан в первую очередь на языковых кодах, использованных в «Этнологе» (тома 10–14), опубликованном SIL International , которая в настоящее время является органом регистрации ISO 639-3. ^[2] Он обеспечивает максимально полный перечень языков, включая живые и вымершие, древние и искусственные, основные и второстепенные, письменные и неписьменные. ^[1] Однако он не включает реконструированные языки , такие как протоиндоевропейский . ^[3]

ISO 639-3 предназначен для использования в качестве кодов метаданных в широком спектре приложений. Он широко используется в компьютерных и информационных системах, таких как Интернет, в которых необходимо поддерживать множество языков. В архивах и других хранилищах информации он используется в системах каталогизации, указывая, на каком языке или о каком языке изложен ресурс. Коды также часто используются в лингвистической литературе и других источниках, чтобы компенсировать тот факт, что названия языков могут быть неясными или двусмысленными.

Коды языков

ISO 639-3 включает все языки ISO 639-1 и все отдельные языки ISO 639-2 . ISO 639-1 и ISO 639-2 ориентированы на основные языки, наиболее часто представленные в мировой литературе. Поскольку ISO 639-2 также включает наборы языков, а Часть 3 — нет, ISO 639-3 не является расширенным набором ISO 639-2. Там, где в ISO 639-2 существуют коды B и T , в ISO 639-3 используются T-коды.

По состоянию на 23 января 2023 года ^{[обновлять]}стандарт содержит 7916 записей. ^[6] Список языков основан на ряде источников, включая: отдельные языки, содержащиеся в 639–2, современные языки из «Этнолога» , исторические разновидности, древние языки и искусственные языки из « Списка лингвистов» , ^[7] , а также языки, рекомендованные в течение ежегодного периода общественного обсуждения.

Машиночитаемые файлы данных предоставляются регистрирующим органом. ^[6] С помощью этих файлов данных можно выполнить сопоставление ISO 639-1 или ISO 639-2 с ISO 639-3.

ISO 639-3 предполагает различия, основанные на не совсем объективных критериях. ^[8] Он не предназначен для документирования или предоставления идентификаторов диалектов или других подъязыковых вариаций. ^[9] Тем не менее, суждения относительно различий между языками могут быть субъективными, особенно в случае языковых разновидностей без устоявшихся литературных традиций, использования в образовании или средствах массовой информации или других факторов, которые способствуют конвенционализации языка. Таким образом, стандарт следует рассматривать не как авторитетное заявление о том, какие языки существуют в мире (по поводу которых в некоторых случаях могут возникнуть существенные разногласия), а скорее как один из полезных способов точного определения различных языковых разновидностей.

Кодовое пространство

Поскольку код состоит из трех букв, одна верхняя граница количества языков, которые могут быть представлены, составляет 26 × 26 × 26 = 17 576. Поскольку ISO 639-2 определяет специальные коды (4), зарезервированный диапазон (520) и коды только B (22), коды 546 не могут использоваться в части 3. Следовательно, более строгая верхняя граница составляет 17 576 - 546 = 17 030.

Верхняя граница становится еще более строгой, если вычесть языковые коллекции, определенные в 639-2, и те, которые еще не определены в ISO 639-5 .

Макроязыки

В ISO 639-2 указано 58 языков, которые для целей стандарта считаются «макроязыками» в ISO 639-3. ^[10]

Некоторые из этих макроязыков не имели отдельного языка, определенного ISO 639–3 в кодовом наборе ISO 639-2, например «ара» (общий арабский язык). Другие, такие как «nor» (норвежский), уже имели две отдельные части («nno» ( нюнорск ), «nob» ( букмол )) уже в ISO 639-2.

Это означает, что некоторые языки (например, «арб», стандартный арабский язык), которые в соответствии с ISO 639–2 считались диалектами одного языка («ара»), теперь в ISO 639–3 в определенных контекстах сами считаются отдельными языками.

Это попытка разобраться с разновидностями, которые могут лингвистически отличаться друг от друга, но воспринимаются их носителями как две формы одного и того же языка, например, в случаях диглоссии .

Например:

ара | ISO 639-3 (общий арабский язык, 639–2)
вилка | ISO 639-3 (Стандартный арабский язык, 639–3)

Полный список см. в ^{[11] .}

Коллективные языки

«Элемент коллективного языкового кода — это идентификатор, который представляет группу отдельных языков, которые не считаются одним языком ни в каком контексте использования». ^[12] Эти коды не точно представляют конкретный язык или макроязык.

Хотя ISO 639-2 включает трехбуквенные идентификаторы коллективных языков, эти коды исключены из ISO 639-3. Следовательно, ISO 639-3 не является расширенной версией ISO 639-2.

ISO 639-5 определяет трехбуквенные коллективные коды для языковых семей и групп, включая коллективные языковые коды из ISO 639-2.

Специальные коды

Четыре кода выделены в ISO 639-2 и ISO 639-3 для случаев, когда ни один из конкретных кодов не подходит. Они предназначены в первую очередь для таких приложений, как базы данных, где требуется код ISO независимо от того, существует ли он.

mis(некодированные языки, первоначально аббревиатура от «разное») предназначен для языков, которые (еще) не включены в стандарт ISO.
mul(несколько языков) предназначен для случаев, когда данные включают более одного языка и (например) для базы данных требуется один код ISO.
und(неопределенный) предназначен для случаев, когда язык в данных не был идентифицирован, например, когда он неправильно помечен или никогда не был помечен. Он не предназначен для таких случаев, как троянская программа , в которой имя присвоено непроверенному языку.
zxx(нет языкового содержания / неприменимо) предназначен для данных, которые вообще не являются языком, например, криков животных. ^[13]

Кроме того, 520 кодов в диапазоне qaa– qtz«зарезервированы для локального использования». Например, Ребекка Беттанкур присваивает построенным языкам код , а новые назначения делаются по запросу. ^[14] В « Списке лингвистов» они используются для обозначения вымерших языков . Лингвист Лист присвоил одному из них общее значение: qnpбезымянный протоязык. Это используется для предлагаемых промежуточных узлов в генеалогическом дереве, у которых нет имени.

Процессы обслуживания

Таблица кодов ISO 639-3 открыта для изменений. Чтобы защитить стабильность существующего использования, разрешенные изменения ограничены: ^[15]

изменения справочной информации для записи (включая имена или категоризации по типу и области действия),
добавление новых записей,
устаревание записей, которые являются дубликатами или поддельными,
объединение одной или нескольких записей в другую запись, и
разделение существующей языковой записи на несколько новых языковых записей.

Код, присвоенный языку, не изменяется, если не изменяется также его обозначение. ^[16]

Изменения вносятся ежегодно. Каждому запросу дается минимум три месяца на общественное рассмотрение.

На веб-сайте ISO 639-3 есть страницы, описывающие «объемы обозначений» ^[17] (языковые типы) и типы языков, ^[18] которые объясняют, какие понятия входят в область кодирования и определенные критерии, которым необходимо соответствовать. Например, искусственные языки могут быть закодированы, но только если они предназначены для человеческого общения и имеют достаточно литературы, что предотвращает запросы на идиосинкразические изобретения.

Регистрирующий орган размещает на своем веб-сайте инструкции, содержащиеся в тексте стандарта ISO 639-3, относительно того, как следует поддерживать кодовые таблицы. ^[19] В нем также документированы процессы, используемые для получения и обработки запросов на изменения. ^[20]

Предусмотрена форма запроса на изменение, а также имеется вторая форма для сбора информации о предлагаемых дополнениях. Любая сторона может подать запрос на изменение. После подачи запросы первоначально проверяются регистрирующим органом на предмет полноты.

Когда получен полностью документированный запрос, он добавляется в опубликованный индекс запросов на изменение. Кроме того, объявления отправляются в общий список обсуждения ЛИНГВИСТОВ в Списке лингвистов и в другие списки, которые регистрирующий орган может счесть уместными, приглашая общественность рассмотреть и внести свой вклад в запрошенное изменение. Любой владелец списка или физическое лицо может запросить уведомления о запросах на изменение для определенных регионов или языковых семей. Полученные комментарии публикуются для просмотра другими сторонами. На основании консенсуса в полученных комментариях запрос на изменение может быть отозван или повышен до «статуса кандидата».

За три месяца до окончания ежегодного цикла рассмотрения (обычно в сентябре) в список обсуждений ЛИНГВИСТ и другие списки отправляется объявление о запросах на изменение статуса кандидата. Все запросы остаются открытыми для рассмотрения и комментариев до конца ежегодного цикла рассмотрения.

Решения объявляются в конце ежегодного цикла рассмотрения (обычно в январе). В это время запросы могут быть приняты полностью или частично, изменены и перенесены в следующий цикл рассмотрения или отклонены. Отказы часто включают предложения о том, как изменить предложения для повторной подачи. Публичный архив каждого запроса на изменение сохраняется вместе с принятыми решениями и их обоснованием. ^[21]

Критика

Лингвисты Мори, Пост и Фридман выдвигают различные критические замечания по поводу ISO 639 и, в частности, ISO 639-3: ^[16]

Сами по себе трехбуквенные коды проблематичны, поскольку, хотя официально это произвольные технические обозначения, они часто происходят от мнемонических сокращений названий языков, некоторые из которых носят уничижительный характер. Например, Йемсе был присвоен код jnjот уничижительного «Джанехеро». Таким образом, носители языка могут счесть эти кодексы оскорбительными. Однако коды можно изменить, отправив запрос на веб-сайт SIL.
Применение стандарта проблематично, поскольку SIL является миссионерской организацией с недостаточной прозрачностью и подотчетностью. Решения о том, что заслуживает кодирования в виде языка, принимаются внутри компании. Хотя внешний вклад может приветствоваться, а может и не приветствоваться, сами решения непрозрачны, и многие лингвисты отказались от попыток улучшить стандарт.
Постоянная идентификация языка несовместима с изменением языка.
Языки и диалекты часто невозможно строго разделить, а диалектные континуумы можно подразделить по-разному, тогда как стандарт отдает предпочтение одному выбору. Вместо этого такие различия часто основаны на социальных и политических факторах.
ISO 639-3 может быть неправильно понят и неправильно использован органами власти, которые принимают решения относительно идентичности и языка людей, отменяя право говорящих идентифицировать или идентифицировать себя со своим речевым разнообразием. Хотя SIL чувствителен к таким проблемам, эта проблема присуща природе установленного стандарта, который может использоваться (или неправильно использоваться) способами, которые не предназначены для ISO и SIL.

Мартин Хаспелмат согласен с четырьмя из этих пунктов, но не с пунктом об изменении языка. ^[22] Он не согласен, потому что любое описание языка требует его идентификации, и мы можем легко определить различные стадии развития языка. Он предполагает, что лингвисты могут предпочесть использовать кодификацию, выполненную на лангуоидном уровне, поскольку «для лингвистов редко имеет значение, является ли то, о чем они говорят, языком, диалектом или сплоченной семьей языков». Он также задается вопросом, подходит ли стандарт ISO для идентификации языка, поскольку ISO является промышленной организацией, в то время как он рассматривает языковую документацию и номенклатуру как научную деятельность. Он ссылается на первоначальную потребность в стандартизированных идентификаторах языка как на «экономическое значение перевода и локализации программного обеспечения », для чего были установлены стандарты ISO 639-1 и 639-2. Но он ставит под сомнение потребность отрасли во всестороннем охвате, предусмотренном ISO 639-3, в том числе в отношении «малоизвестных языков небольших сообществ, которые никогда или почти не используются в письменной форме и часто находятся под угрозой исчезновения».

Применение

Этнолог
Список лингвистов
OLAC : Сообщество архивов открытых языков ^[23]
Microsoft Windows 8 : ^[24] Поддерживает все коды ISO 639-3 на момент выпуска.
Фонд Викимедиа: Новые языковые проекты (например, Википедии на новых языках) должны иметь идентификатор ISO 639-1, -2 или -3. ^[25]
Другие стандарты, основанные на ISO 639-3:
- Языковые теги , определенные Инженерной группой Интернета (IETF), как описано в:
  - BCP 47: Best Current Practice 47 , ^[26] , который включает RFC 5646.
  - RFC 5646, который заменил RFC 4646, который заменил RFC 3066. (Поэтому все стандарты, которые зависят от любого из этих трех стандартов IETF, теперь используют ISO 639-3.)
- Стандарт ePub 3.0 для языковых метаданных ^[27] использует элементы метаданных Dublin Core. Эти элементы языковых метаданных в электронных публикациях должны содержать действительные коды RFC 5646 для языков. ^[27] RFC5646 указывает на ISO 639-3 для языков без более коротких кодов IANA.
- Dublin Core Metadata Initiative : Термин метаданных DCMI ^[28] для языка, через IETF RFC 4646 (теперь заменен RFC 5646).
- Управление по присвоению номеров в Интернете (IANA) В рамках усилий по интернационализации W3C рекомендует использовать реестр языковых субтегов IANA для выбора кодов для языков. ^[29] Реестр языковых субтегов IANA ^[30] зависит от кодов ISO 639-3 для языков, которые ранее не имели кодов в других частях стандарта ISO 639.
- HTML5: ^[31] через BCP 47 IETF.
- XML: ^[32] через BCP 47 IETF.
- SVG: ^[33] через BCP 47 IETF.
- Коды библиотеки MODS : ^[34] Включает RFC 3066 IETF (теперь заменен RFC 5646).
- Инициатива по кодированию текста (TEI): ^[35] через BCP 47 IETF.
- Lexical Markup Framework : спецификация ISO для представления машиночитаемых словарей.
- Общее хранилище данных локали Unicode : использует несколько сотен кодов из ISO 639-3, не включенных в ISO 639-2.

дальнейшее чтение

Аристар, Энтони (2006). «Стандартизированные ISO коды языков и этнолог» (PDF) . Бюллетень SSILA . 247 . Архивировано из оригинала (PDF) 20 мая 2014 года.
Добрин, Лиза М.; Хорошо, Джефф (2009). «Практическое развитие языка: чья миссия?» (PDF) . Язык . 85 (3): 619–629. дои : 10.1353/lan.0.0152. S2CID 144749106.
Эппс, Терпение (2006). «Против принятия языковых кодов Ethnologue по стандарту ISO 639-3» (PDF) . Бюллетень SSILA . 246 . Архивировано из оригинала (PDF) 20 мая 2014 года.
Голла, Виктор, изд. (2006). «Заявление SSILA о языковых кодах ISO 639-3» (PDF) . Бюллетень SSILA . 249 . Архивировано из оригинала (PDF) 20 мая 2014 года.
Хорошо, Джефф; Цисоу, Майкл (2013). «Лангвоид, докулект и глоссоним: формализация понятия «язык»". Языковая документация и сохранение . 7 : 331–359. hdl : 10125/4606.

Внешние ссылки

Орган регистрации ISO 639-3
Часто задаваемые вопросы на веб-сайте Библиотеки Конгресса США.
Ожидающие применения ISO 639-3 ^{[ мертвая ссылка ]}
Список лингвистов - Список древних и вымерших языков
объяснение Ховарда Юлстада