В Юникоде сценарий — это набор букв и других письменных знаков, используемых для представления текстовой информации в одной или нескольких системах письменности . [1] Некоторые скрипты поддерживают одну и только одну систему письма и язык , например, армянский . Другие сценарии поддерживают множество различных систем письма; например, латиница поддерживает английский , французский , немецкий , итальянский , вьетнамский , саму латынь и ряд других языков. В некоторых языках используется несколько альтернативных систем письма и, следовательно, также используется несколько сценариев; например, в турецком языке арабская письменность использовалась до 20-го века, но перешла на латынь в начале 20-го века. Более или менее дополняющими скрипты являются символы и управляющие символы Юникода .
Унифицированные диакритические символы и унифицированные знаки пунктуации часто имеют свойство «общего» или «унаследованного» сценария. Однако отдельные сценарии часто имеют свои собственные знаки препинания и диакритики , поэтому многие сценарии включают не только буквы, но также диакритические и другие знаки, знаки препинания, цифры и даже свои собственные уникальные символы и пробелы .
Юникод 15.1 определяет 161 отдельный алфавит, включая 94 современных алфавита и 67 древних или исторических шрифтов. [2] [3] Другие сценарии находятся в процессе кодирования или предварительно выделены для кодирования в дорожных картах. [4]
Когда в нескольких языках используется один и тот же алфавит, часто возникают некоторые различия, особенно в диакритических знаках и других знаках. Например, в шведском и английском языках используется латинский алфавит. Однако в шведском языке есть символ å (иногда называемый шведским O ), тогда как в английском языке такого символа нет. В английском языке также не используется диакритическое комбинирующее кольцо, указанное выше , для каких-либо символов. Как правило, в языках с одним и тем же алфавитом используется много одинаковых символов. Несмотря на эти периферийные различия в шведской и английской системах письма, говорят, что они используют одну и ту же латиницу. Таким образом, абстракция сценариев в Юникоде является основным методом организации. Различия между различными алфавитами или системами письма сохраняются и поддерживаются посредством гибких сценариев Unicode, сочетающих знаки и алгоритмы сопоставления.
Систему письма иногда рассматривают как синоним слова «сценарий». Однако его также можно использовать как конкретную систему письма, поддерживаемую сценарием. Например, вьетнамская система письма поддерживается латиницей. Система письма также может охватывать более одного сценария; например, японская система письма использует сценарии Хан , Хирагана и Катакана .
Большинство систем письменности можно условно разделить на несколько категорий: логографическую , слоговую , алфавитную (или сегментарную ), абугиду , абджад и чертную ; однако все особенности любого из них можно найти в любой системе письма в различных пропорциях, что часто затрудняет простое категорирование системы. Термин « сложная система» иногда используется для описания систем, в которых примесь затрудняет классификацию.
Unicode поддерживает все эти типы систем письма посредством своих многочисленных скриптов. Unicode также добавляет к символам дополнительные свойства, которые помогают различать различные символы и способы их поведения в алгоритмах обработки текста Unicode.
Помимо явных или конкретных свойств сценария, Unicode использует три специальных значения: [5]
Unicode предоставляет общее свойство категории для каждого символа. Таким образом, помимо принадлежности к сценарию каждый персонаж имеет еще и общую категорию. Обычно сценарии включают буквенные символы, в том числе: прописные буквы, строчные буквы и буквы-модификаторы. Некоторые символы считаются заглавными буквами для нескольких заранее составленных лигатур, таких как ϲ (U + 01F2). Все такие лигатуры титульного регистра написаны латинским и греческим алфавитом и являются символами совместимости , поэтому Unicode не рекомендует авторам использовать их. Маловероятно, что в будущем будут добавлены новые заглавные буквы.
Большинство систем письма не различают прописные и строчные буквы. В этих сценариях все буквы классифицируются как «другая буква» или «буква-модификатор». Иероглифы, такие как иероглифы Unihan, также относятся к категории «другие буквы». Однако в некоторых алфавитах различаются прописные и строчные буквы: латынь, кириллица, греческий, армянский, грузинский и дезерет. Даже в этих сценариях есть буквы, которые не являются ни прописными, ни строчными.
Сценарии также могут содержать любые другие символы общей категории, такие как знаки (диакритические и другие), числа (цифры), знаки препинания , разделители (разделители слов, такие как пробелы), символы и символы неграфического формата . Они включаются в конкретный сценарий, если они уникальны для этого сценария. Другие подобные символы обычно унифицированы и включены в блоки пунктуации или диакритики. Однако основная часть символов любого алфавита (кроме распространенных и унаследованных) — это буквы.
Unicode определяет более сотни имен сценариев (называемых «Псевдоним» или «Псевдоним значения свойства») на основе списка ISO 15924. Unicode использует «Общее» имя сценария для Zyyy в ISO 15924 (код для неопределенного сценария), «Наследуемое» для Zinh в ISO 15924 (код для унаследованного сценария) и «Неизвестное» для Zzzz в ISO 15924 (код для некодированного сценария). Не используются, среди прочего, коды сценариев ISO 15924: Zsym (Символы) и Zmth (Математическая запись). Они не считаются скриптами в смысле Unicode.
С каждой новой версией Unicode к международному коду символов добавляются новые системы письма. Согласно заявлению лингвиста доктора Деборы Андерсон из Калифорнийского университета в Беркли, существует более 100 систем письменности, которые еще не включены в Unicode.
Согласно списку проекта Missing Scripts Университета прикладных наук Майнца, Германия, ANRT Нанси, Франция и Калифорнийского университета в Беркли, США, согласно текущему состоянию исследований (январь 2022 г.) человечеству известны 294 системы письменности. 131 из них еще не закодированы в Unicode, т.е. пока не могут быть использованы на компьютере или мобильном телефоне.