stringtranslate.com

Частные зоны использования

В Unicode область частного использования ( PUA ) представляет собой диапазон кодовых точек , которым по определению не будут назначены символы стандартом. [1] Определены три области частного использования: одна в базовой многоязыковой плоскости ( U+E000–U+F8FF ) и по одной в плоскостях 15 и 16 , и почти покрывающих их ( U+F0000–U+FFFFD , U+100000–U+10FFFD ). Они намеренно оставлены неопределенными, чтобы третьи стороны могли назначать свои собственные символы, не конфликтуя с назначениями Консорциума Unicode. В соответствии с Политикой стабильности Unicode [2] области частного использования останутся выделенными для этой цели во всех будущих версиях Unicode.

Назначения для символов области частного использования не обязательно должны быть «частными» в смысле строго внутренних для организации; ряд схем назначения были опубликованы несколькими организациями. Такая публикация может включать шрифт, который поддерживает определение (показ глифов), и программное обеспечение, использующее символы частного использования (например, графический символ для функции «печати документа»). По определению, несколько частных сторон могут назначать разные символы одной и той же кодовой точке, в результате чего пользователь может увидеть один частный символ из установленного шрифта там, где предполагался другой.

Определение

Согласно определению Unicode, кодовые точки в зонах частного использования не являются несимволами, зарезервированными или неназначенными. Их категория — « Other, private use (Co)», и имена символов не указаны. Репрезентативные глифы не предоставляются, а семантика символов оставлена ​​на усмотрение частного соглашения.

Символам частного использования назначаются кодовые точки Unicode, интерпретация которых не указана в настоящем стандарте и использование которых может определяться частным соглашением между сотрудничающими пользователями. Эти символы предназначены для частного использования и не имеют определенной, интерпретируемой семантики, за исключением частного соглашения. ... Для символов частного использования не предоставляются таблицы, поскольку любые такие символы по своей природе определены только вне контекста настоящего стандарта. [3]

Назначение

В базовой многоязычной плоскости (плоскость 0) блок под названием «Зона частного использования» имеет 6400 кодовых точек.

Плоскости 15 и 16 почти [примечание 1] полностью назначены двум дополнительным областям частного использования, Supplementary Private Use Area-A и Supplementary Private Use Area-B соответственно. В UTF-16 подмножество высоких суррогатов (U+DB80..U+DBFF) используется для этих и только этих плоскостей и называется High Private Use Surrogates .

Блоки PUA Unicode

В Unicode есть три блока PUA. [3]

История

В Unicode 1.0.0 область частного использования простиралась от U+E800 до U+FDFF (т.е. не включала U+E000..E7FF, но дополнительно включала диапазон U+F900..FDFF, который сейчас занят идеографами совместимости CJK , алфавитными формами представления и арабскими формами представления-A ). [7] Это было изменено на U+E000..F8FF в Unicode 1.0.1, [4] и оставалось таковым в Unicode 1.1. [8] Вопреки заблуждению, диапазон U+D800..DFFF (зарезервированный для суррогатов UTF-16 со времен Unicode 2.0) не был включен в диапазон частного использования какой-либо версии Unicode 1.x.

Исторически плоскости E0 (224) через FF (255) и группы 60 (96) через 7F (127) Универсального набора кодированных символов (т. е. U+E00000 через U+FFFFFF и U+60000000 через U+7FFFFFFF) также были обозначены как частное использование. Эти диапазоны были удалены из указанных диапазонов частного использования, когда UCS была ограничена семнадцатью плоскостями, достижимыми в UTF-16. [9]

Использование

Инициатива по стандартизации использует

Многие люди и учреждения создали коллекции символов для PUA. Некоторые из этих соглашений о частном использовании опубликованы, поэтому другие разработчики PUA могут ориентироваться на неиспользуемые или менее используемые кодовые точки, чтобы предотвратить наложения. Несколько символов и сценариев, ранее закодированных в соглашениях о частном использовании, фактически были полностью закодированы в Unicode, что потребовало сопоставления из PUA с другими кодовыми точками Unicode.

Одно из наиболее известных и широко применяемых соглашений PUA поддерживается ConScript Unicode Registry (CSUR). CSUR, который официально не одобрен и не связан с Unicode Consortium, обеспечивает сопоставление для сконструированных письменностей, таких как Klingon pIqaD и Ferengi script (Star Trek), Tengwar и Cirth (курсивные и рунические письменности Дж. Р. Р. Толкиена), Visible Speech Александра Мелвилла Белла и алфавит доктора Сьюза из On Beyond Zebra . Ранее CSUR кодировал нерасшифрованные символы Phaistos , а также алфавиты Shavian и Deseret , которые все были приняты для официального кодирования в Unicode.

Другое общее соглашение PUA поддерживается Medieval Unicode Font Initiative (MUFI). Этот проект пытается поддержать все аббревиатуры писцов, лигатуры, предкомпозитные символы , символы и альтернативные формы букв , встречающиеся в средневековых текстах, написанных латинским алфавитом. Явная цель MUFI — экспериментально определить, какие символы необходимы для представления этих текстов, и официально закодировать эти символы в Unicode. Начиная с версии Unicode 5.1, в официальную кодировку Unicode было включено 152 символа MUFI. [ требуется обновление ]

Некоторые согласованные коллекции символов PUA существуют частично или полностью, потому что Консорциум Unicode не спешит их кодировать. Некоторые, например, непредставленные языки, скорее всего, будут закодированы в будущем. Некоторые необычные случаи, такие как вымышленные языки, находятся за пределами обычной сферы действия Unicode, но явно не исключены принципами Unicode и могут появиться в конечном итоге (например, системы письма Star Trek и Tolkien). В других случаях предлагаемая кодировка нарушает один или несколько принципов Unicode и, следовательно, вряд ли когда-либо будет официально признана Unicode — в основном, когда пользователи хотят напрямую кодировать альтернативные формы, лигатуры или комбинации базовый символ-плюс-диакритический знак (например, схема TUNE).

Использование поставщиком

Неформально диапазон U+F000 через U+F8FF известен как Corporate Use Area. Это происходит из ранних версий Unicode, которые определяли "End User Zone" (Зону конечного пользователя), простирающуюся от U+E000 вверх, и "Corporate Use Zone" (Зону корпоративного использования), простирающуюся от U+F8FF вниз, при этом граница между ними оставалась неопределенной. [8]

Символы личного пользования в других наборах символов

Концепция резервирования определенных кодовых точек для частного использования основана на аналогичном более раннем использовании в других наборах символов. В частности, многие устаревшие символы в восточноазиатских письменностях продолжают использоваться в определенных именах или других ситуациях, и поэтому некоторые наборы символов для этих письменностей допускают использование символов частного использования (таких как определяемые пользователем плоскости CNS 11643 или гайдзи в некоторых японских кодировках). Стандарт Unicode ссылается на эти использования под названием «Определение конечного пользователя» (EUCD). [3]

Кроме того, блок управления C1 содержит два кода, предназначенных для частного использования «функций управления» по ECMA-48 : 0x91 частного использования один (PU1) и 0x92 частного использования два (PU2). [34] [35] Unicode включает их в U+0091 <control-0091> и U+0092 <control-0092> но определяет их как управляющие символы (категория Cc), а не как символы частного использования (категория Co). [5] [36]

Кодировки, не имеющие областей частного использования, но имеющие более или менее неиспользуемые области, такие как ISO/IEC 8859 и Shift JIS , стали свидетелями неконтролируемых вариантов этих кодировок. [37] Что касается Unicode, компании-разработчики программного обеспечения могут использовать области частного использования для своих желаемых дополнений.

Примечания

  1. ^ Последние два символа каждой плоскости определены как несимволы . Остальные 65 534 символа каждой из плоскостей 15 и 16 назначены как символы личного пользования.

Ссылки

  1. ^ "Глоссарий терминов Unicode: "Область частного использования (PUA)"". Консорциум Unicode .
  2. ^ "Политика стабильности кодировки символов Unicode". 2021-11-10 . Получено 2022-03-03 .
  3. ^ abc "Глава 23 Специальные области и символы формата" (PDF) . Стандарт Unicode версии 14.0 - Основная спецификация . Символы частного использования.
  4. ^ ab "Unicode 1.0.1" (PDF) . Стандарт Unicode . 1992-11-03. Архивировано (PDF) из оригинала 2016-07-02 . Получено 2016-07-09 .
  5. ^ abcd "База данных символов Unicode". Стандарт Unicode . Получено 2023-07-26 .
  6. ^ abc "Перечисленные версии стандарта Unicode". Стандарт Unicode . Получено 2023-07-26 .
  7. ^ "3.5: Private Use Area" (PDF) . Стандарт Unicode, версия 1.0, том 1 . Консорциум Unicode . 1991. стр. 118–119. ISBN 0-201-56788-1. Архивировано (PDF) из оригинала 2021-10-21 . Получено 2021-10-11 .
  8. ^ ab "2.0: Изменения в Unicode 1.0" (PDF) . Стандарт Unicode, версия 1.1 . Консорциум Unicode . стр. 3–4. UTR #4. Архивировано (PDF) из оригинала 2021-11-20 . Получено 11 октября 2021 .
  9. ^ Уистлер, Кен (2000). «Необходимые изменения для ISO/IEC 10646 относительно PUA». UTC /00-015. Архивировано из оригинала 2021-06-23 . Получено 2021-01-30 .
  10. ^ "База данных писем". Eki.ee. Архивировано из оригинала 2018-05-21 . Получено 2013-04-11 .
  11. ^ "Наборы символов: восточноазиатские символы: альтернативные сопоставления Unicode для символов MARC 21, назначенных для области частного использования (PUA): спецификации MARC 21 для структуры записи, наборов символов и носителей обмена". Библиотека Конгресса. 2004-09-02. Архивировано из оригинала 2013-08-19 . Получено 2013-04-11 .
  12. ^ "tunerfc.tn.nic.in". tunerfc.tn.nic.in. Архивировано из оригинала 2010-07-29 . Получено 2013-04-11 .
  13. ^ "Unicode Corporate Use Subarea, используемая Adobe Systems". 22 октября 1998 г. Архивировано из оригинала 9 октября 2002 г. Получено 12 мая 2021 г.
  14. ^ "NSOpenStepUnicodeReservedBase - Документация для разработчиков Apple". Apple Inc. Архивировано из оригинала 2020-11-06 . Получено 2020-10-16 .
  15. ^ Apple Computer, Inc. (2005) [1994]. "CORPCHAR.TXT - Реестр (внешняя версия) использования Apple символов корпоративной зоны Unicode". c03. Unicode Inc. Архивировано из оригинала 2020-10-30 . Получено 2020-10-16 .
  16. ^ "WGL4 Unicode Range U+2013 through U+FB02". Microsoft . Архивировано из оригинала 2014-07-17.
  17. ^ "SFM преобразует имена файлов Macintosh HFS в Unicode NTFS". Служба поддержки Microsoft . 24 февраля 2014 г. Архивировано из оригинала 27 мая 2016 г.
  18. ^ "ntfs.util.c". 2008. Архивировано из оригинала 2018-08-07 . Получено 2018-08-07 . Недопустимые символы имени файла NTFS кодируются [ sic ] с использованием символов Unicode частного использования SFM (Services for Macintosh).
  19. ^ "Диапазон символов между U+F020 и U+F0FF в области частного использования Unicode сопоставлен с символьными шрифтами в Richedit 4.1". База знаний Microsoft . Архивировано из оригинала 2012-10-22.
  20. ^ "Обработка символов PUA в программном обеспечении Microsoft". SIL International . 2003-04-25. Архивировано из оригинала 2015-05-11 . Получено 2014-03-04 .
  21. ^ "Комментарий № 8: Ошибка № 651606 (круг друзей): Ошибки: Семейство шрифтов Ubuntu". Launchpad . 5 октября 2010 г. Архивировано из оригинала 17.10.2020 . Получено 17.10.2020 .
  22. ^ "Комментарий № 2: Ошибка № 853855: Ошибки: Семейство шрифтов Ubuntu". Launchpad . 26 сентября 2011 г. Архивировано из оригинала 17.10.2020 . Получено 17.10.2020 .
  23. ^ "Вопрос о плагине строки состояния Powerline на Stack Exchange, упоминающий символы области частного использования". Архивировано из оригинала 2015-03-12 . Получено 2015-03-22 .
  24. ^ "Изображения, показывающие символы области частного использования в исправленных шрифтах Powerline". Архивировано из оригинала 2015-05-11 . Получено 2015-03-22 .
  25. ^ Ли, Жэньчжи (2019-08-23). ​​«Предложение о добавлении дополнительных символов в блок Graphics for Legacy Computing UCS» (PDF) . Получено 2023-07-31 .
  26. ^ "lmb-excp.ucm". GitHub . 2000-02-10. Архивировано из оригинала 2022-01-25 . Получено 2020-04-23 .
  27. ^ "Anhang 2. Der Lotus Multibyte Zeichensatz (LMBCS)" [Приложение 2. Набор многобайтовых символов Lotus (LMBCS)]. Lotus 1-2-3 Version 3.1 Referenzhandbuch [ Lotus 1-2-3 Version 3.1 Reference Manual ] (на немецком языке) (1-е изд.). Кембридж, Массачусетс, США: Lotus Development Corporation . 1989. стр. A2–1 – A2–13. 302168.
  28. ^ "CPGID 01445 (диаграмма)" (PDF) . РЕЕСТР: Наборы графических символов и кодовые страницы . 2012 [2011]. CH 3-3220-050. Область, показанная на диаграмме выше, представляет только 254 байта строки FF в плоскости 0F.
  29. ^ "CPGID 01445: IBM AFP PUA No. 1". РЕЕСТР: Наборы графических символов и кодовые страницы . 2012 [2011]. CH 3-3220-050. Область, показанная на диаграмме выше, представляет только 254 байта строки FF в плоскости 0F.
  30. ^ "CPGID 01449: IBM default PUA". IBM Globalization: Code page identifiers . IBM . Архивировано из оригинала 2015-09-16. IBM выделила 195 позиций от U+F83D до U+F8FF для использования в качестве IBM Corporate-zone и намерена использовать их последовательно в IBM всякий раз, когда возникает необходимость в сохранении целостности символов IBM при передаче.
  31. ^ IBM (1997). unicode.nam: позволяет указывать символы Unicode с использованием имен, подобных IBM или PostScript .(Входит в комплект Borgendale, Ken, OS/2 Codepage и Keyboard Display Tools))
  32. ^ "Настройка сопоставления символов для преобразования имен файлов SMB на томах". 9 декабря 2021 г. Получено 14 октября 2022 г.
  33. ^ "Twitter Chirp Font". Копировать Вставить Дамп . Получено 2022-02-08 .
  34. ^ "Стандарт ECMA-48, пятое издание - июнь 1991 г." (PDF) . §8.2.14 Различные функции управления, §8.3.100, §8.3.101.
  35. ^ ISO/TC97/SC2 (1983-10-01). Набор управляющих символов C1 ISO 6429 (PDF) . ITSCJ/ IPSJ . ISO-IR -77.{{citation}}: CS1 maint: числовые имена: список авторов ( ссылка )
  36. ^ "Глава 4 Свойства символов" (PDF) . Стандарт Unicode версии 14.0 - Основная спецификация . Таблица 4-4.
  37. ^ "Map (external version) from Mac OS Japanese encoding to Unicode 2.1 and later". Архивировано из оригинала 2021-08-31 . Получено 2021-10-08 .