В Unicode скрипт — это набор букв и других письменных знаков, используемых для представления текстовой информации в одной или нескольких системах письма . [1] Некоторые скрипты поддерживают одну и только одну систему письма и язык , например, армянский . Другие скрипты поддерживают множество различных систем письма; например, латинский скрипт поддерживает английский , французский , немецкий , итальянский , вьетнамский , саму латынь и несколько других языков. Некоторые языки используют несколько альтернативных систем письма и, таким образом, также используют несколько скриптов; например, в турецком арабский скрипт использовался до 20-го века , но перешел на латиницу в начале 20-го века. Более или менее дополнительными к скриптам являются символы и управляющие символы Unicode .
Унифицированные диакритические знаки и унифицированные знаки пунктуации часто имеют свойство «общего» или «унаследованного» письма. Однако отдельные письма часто имеют свою собственную пунктуацию и диакритические знаки , так что многие письма включают не только буквы, но и диакритические и другие знаки, знаки препинания, цифры и даже свои собственные идиосинкразические символы и пробелы .
Unicode 16.0 определяет 168 отдельных письменностей, включая 99 современных и 69 древних или исторических письменностей. [2] [3] Еще больше письменностей находятся в процессе кодирования или предварительно выделены для кодирования в дорожных картах. [4]
Когда несколько языков используют один и тот же алфавит, часто существуют некоторые различия, особенно в диакритических знаках и других знаках. Например, шведский и английский оба используют латинский алфавит. Однако шведский включает символ å (иногда называемый шведским O ), в то время как английский не имеет такого символа. Также английский не использует диакритическое объединяющее кольцо выше для любого символа. В целом, языки, использующие один и тот же алфавит, используют много одинаковых символов. Несмотря на эти периферийные различия в шведской и английской системах письма, говорят, что они используют один и тот же латинский алфавит. Таким образом, абстракция алфавитов Unicode является базовой техникой организации. Различия между различными алфавитами или системами письма сохраняются и поддерживаются с помощью гибких алфавитов Unicode, объединяющих знаки и алгоритмов сопоставления.
Система письма иногда рассматривается как синоним «письменности». Однако его также можно использовать как конкретную систему письма, поддерживаемую письменностью. Например, вьетнамская система письма поддерживается латиницей. Система письма может также охватывать более одной письменности; например, японская система письма использует письменности хань , хирагана и катакана .
Большинство систем письма можно в целом разделить на несколько категорий: логографические , слоговые , алфавитные (или сегментные ), абугида , абджад и фичеатуральные ; однако все черты любой из них могут быть найдены в любой данной системе письма в разных пропорциях, что часто затрудняет чистую категоризацию системы. Термин сложная система иногда используется для описания тех, где примесь делает классификацию проблематичной.
Unicode поддерживает все эти типы систем письма посредством своих многочисленных скриптов. Unicode также добавляет дополнительные свойства к символам, чтобы помочь различать различные символы и способы их поведения в алгоритмах обработки текста Unicode.
В дополнение к явным или определенным свойствам скрипта, Unicode использует три специальных значения: [5]
Unicode предоставляет общее свойство категории для каждого символа. Таким образом, в дополнение к принадлежности к скрипту каждый символ также имеет общую категорию. Обычно скрипты включают в себя буквенные символы, включая: заглавные буквы, строчные буквы и буквы-модификаторы. Некоторые символы считаются заглавными буквами для нескольких предварительно составленных лигатур, таких как Dz (U+01F2). Такие заглавные лигатуры все есть в латинском и греческом скриптах и все являются совместимыми символами , и поэтому Unicode не рекомендует их использовать авторам. Маловероятно, что в будущем будут добавлены новые заглавные буквы.
Большинство систем письма не различают заглавные и строчные буквы. Для этих систем письма все буквы относятся к категории «другие буквы» или «модификаторы». Идеограммы, такие как идеограммы Unihan, также относятся к категории «другие буквы». Однако несколько систем письма различают заглавные и строчные буквы: латиница, кириллица, греческий, армянский, грузинский и Deseret. Даже для этих систем письма есть некоторые буквы, которые не являются ни заглавными, ни строчными.
Шрифты также могут содержать любые другие общие символы категории, такие как знаки (диакритические и иные), цифры (цифры), знаки препинания , разделители (разделители слов, такие как пробелы), символы и неграфические символы формата . Они включаются в конкретный шрифт, когда они уникальны для этого шрифта. Другие такие символы, как правило, унифицированы и включены в блоки пунктуации или диакритических знаков. Однако основная часть символов в любом шрифте (кроме общих и унаследованных шрифтов) — это буквы.
Начиная с версии 16.0 [обновлять], Unicode определяет 168 сценариев (называемых «Псевдонимами» или «Псевдонимами значений свойств») на основе списка ISO 15924. Кроме того, Unicode присваивает Zyyy
коду ISO 15924 для неопределенных сценариев имя «Общий», коду ISO 15924 Zinh
для унаследованных сценариев — «Унаследованный», а коду ISO 15924 для некодированных сценариев — «Неизвестный» Zzzz
. Существуют коды сценариев, определенные ISO 15924, но не используемые в Unicode, включая Zsym
(Символы) и Zmth
(Математическая нотация).
Проект Missing Scripts, в котором приняли участие представители Университета прикладных наук Майнца , Национальной школы типографских исследований (ANRT) в Нанси и Калифорнийского университета в Беркли , составил список из 131 письменности, которые еще не были закодированы в стандарте Unicode , из 294 письменностей, признанных в соответствии с текущим состоянием исследований. [6]