Скрипт (Юникод)

В Юникоде сценарий — это набор букв и других письменных знаков, используемых для представления текстовой информации в одной или нескольких системах письменности . ^[1] Некоторые скрипты поддерживают одну и только одну систему письма и язык , например, армянский . Другие сценарии поддерживают множество различных систем письма; например, латиница поддерживает английский , французский , немецкий , итальянский , вьетнамский , саму латынь и ряд других языков. В некоторых языках используется несколько альтернативных систем письма и, следовательно, также используется несколько сценариев; например, в турецком языке арабская письменность использовалась до 20-го века, но перешла на латынь в начале 20-го века. Более или менее дополняющими скрипты являются символы и управляющие символы Юникода .

Унифицированные диакритические символы и унифицированные знаки пунктуации часто имеют свойство «общего» или «унаследованного» сценария. Однако отдельные сценарии часто имеют свои собственные знаки препинания и диакритики , поэтому многие сценарии включают не только буквы, но также диакритические и другие знаки, знаки препинания, цифры и даже свои собственные уникальные символы и пробелы .

Юникод 15.1 определяет 161 отдельный алфавит, включая 94 современных алфавита и 67 древних или исторических шрифтов. ^[2]^[3] Другие сценарии находятся в процессе кодирования или предварительно выделены для кодирования в дорожных картах. ^[4]

Определение и классификация

Когда в нескольких языках используется один и тот же алфавит, часто возникают некоторые различия, особенно в диакритических знаках и других знаках. Например, в шведском и английском языках используется латинский алфавит. Однако в шведском языке есть символ å (иногда называемый шведским O ), тогда как в английском языке такого символа нет. В английском языке также не используется диакритическое комбинирующее кольцо, указанное выше , для каких-либо символов. Как правило, в языках с одним и тем же алфавитом используется много одинаковых символов. Несмотря на эти периферийные различия в шведской и английской системах письма, говорят, что они используют одну и ту же латиницу. Таким образом, абстракция сценариев в Юникоде является основным методом организации. Различия между различными алфавитами или системами письма сохраняются и поддерживаются посредством гибких сценариев Unicode, сочетающих знаки и алгоритмы сопоставления.

Сценарий против системы письма

Систему письма иногда рассматривают как синоним слова «сценарий». Однако его также можно использовать как конкретную систему письма, поддерживаемую сценарием. Например, вьетнамская система письма поддерживается латиницей. Система письма также может охватывать более одного сценария; например, японская система письма использует сценарии Хан , Хирагана и Катакана .

Большинство систем письменности можно условно разделить на несколько категорий: логографическую , слоговую , алфавитную (или сегментарную ), абугиду , абджад и чертную ; однако все особенности любого из них можно найти в любой системе письма в различных пропорциях, что часто затрудняет простое категорирование системы. Термин « сложная система» иногда используется для описания систем, в которых примесь затрудняет классификацию.

Unicode поддерживает все эти типы систем письма посредством своих многочисленных скриптов. Unicode также добавляет к символам дополнительные свойства, которые помогают различать различные символы и способы их поведения в алгоритмах обработки текста Unicode.

Специальные значения свойств скрипта

Помимо явных или конкретных свойств сценария, Unicode использует три специальных значения: ^[5]

Общий: Unicode может назначить символ в UCS только одному сценарию. Однако многие символы — те, которые не являются частью формальной системы письма на естественном языке или унифицированы во многих системах письма — могут использоваться более чем в одном письме (например, знаки валюты, символы, цифры и знаки препинания). В этих случаях Unicode определяет их как принадлежащие к «общему» алфавиту ( код ISO 15924 «Zyyy»).
Унаследовано: Многие диакритические знаки и символы объединения без пробелов могут применяться к символам из более чем одного алфавита. В этих случаях Unicode присваивает их «унаследованному» сценарию (код ISO 15924 Zinh), что означает, что они имеют тот же класс сценария, что и базовый символ, с которым они сочетаются, и поэтому в разных контекстах они могут рассматриваться как принадлежащие разным символам. сценарии. Например, U+0308 ̈ COMBINING DIAERESIS можно комбинировать либо с U+0065 e ЛАТИНСКАЯ СТРОЧНАЯ БУКВА E для создания латинской ë , либо с U+0435 е КИРИЛЛИЧЕСКАЯ СТРОЧНАЯ БУКВА IE для кириллической ё . В первом случае он наследует латиницу базового символа, а во втором — кириллицу базового символа.
Неизвестный: Значение «неизвестного» сценария (код ISO 15924 Zzzz) присваивается неназначенным, бессимвольным и суррогатным кодовым точкам частного использования.

Категории персонажей в сценариях

Unicode предоставляет общее свойство категории для каждого символа. Таким образом, помимо принадлежности к сценарию каждый персонаж имеет еще и общую категорию. Обычно сценарии включают буквенные символы, в том числе: прописные буквы, строчные буквы и буквы-модификаторы. Некоторые символы считаются заглавными буквами для нескольких заранее составленных лигатур, таких как ϲ (U + 01F2). Все такие лигатуры титульного регистра написаны латинским и греческим алфавитом и являются символами совместимости , поэтому Unicode не рекомендует авторам использовать их. Маловероятно, что в будущем будут добавлены новые заглавные буквы.

Большинство систем письма не различают прописные и строчные буквы. В этих сценариях все буквы классифицируются как «другая буква» или «буква-модификатор». Иероглифы, такие как иероглифы Unihan, также относятся к категории «другие буквы». Однако в некоторых алфавитах различаются прописные и строчные буквы: латынь, кириллица, греческий, армянский, грузинский и дезерет. Даже в этих сценариях есть буквы, которые не являются ни прописными, ни строчными.

Сценарии также могут содержать любые другие символы общей категории, такие как знаки (диакритические и другие), числа (цифры), знаки препинания , разделители (разделители слов, такие как пробелы), символы и символы неграфического формата . Они включаются в конкретный сценарий, если они уникальны для этого сценария. Другие подобные символы обычно унифицированы и включены в блоки пунктуации или диакритики. Однако основная часть символов любого алфавита (кроме распространенных и унаследованных) — это буквы.

Список скриптов в Юникоде

Unicode определяет более сотни имен сценариев (называемых «Псевдоним» или «Псевдоним значения свойства») на основе списка ISO 15924. Unicode использует «Общее» имя сценария для Zyyy в ISO 15924 (код для неопределенного сценария), «Наследуемое» для Zinh в ISO 15924 (код для унаследованного сценария) и «Неизвестное» для Zzzz в ISO 15924 (код для некодированного сценария). Не используются, среди прочего, коды сценариев ISO 15924: Zsym (Символы) и Zmth (Математическая запись). Они не считаются скриптами в смысле Unicode.

Отсутствующие скрипты в Юникоде

С каждой новой версией Unicode к международному коду символов добавляются новые системы письма. Согласно заявлению лингвиста доктора Деборы Андерсон из Калифорнийского университета в Беркли, существует более 100 систем письменности, которые еще не включены в Unicode.

Согласно списку проекта Missing Scripts Университета прикладных наук Майнца, Германия, ANRT Нанси, Франция и Калифорнийского университета в Беркли, США, согласно текущему состоянию исследований (январь 2022 г.) человечеству известны 294 системы письменности. 131 из них еще не закодированы в Unicode, т.е. пока не могут быть использованы на компьютере или мобильном телефоне.

Смотрите также

Внешние ссылки

Инициатива по кодированию сценариев. Проект Калифорнийского университета в Беркли, США, направленный на включение большего количества сценариев в стандарт Unicode.
Мировые системы письма. Обзор всех 294 известных систем письма, каждая из которых имеет типографский справочный символ и свой статус Unicode.