stringtranslate.com

ИСО/МЭК 8859-8

ISO/IEC 8859-8 , Информационные технологии — 8-битные однобайтовые кодированные графические наборы символов — Часть 8: Латинский/ивритский алфавит , является частью серии ISO/IEC 8859 стандартных кодировок символов на основе ASCII . ISO/IEC 8859-8:1999 от 1999 года представляет собой его вторую и текущую редакцию, которой предшествовало первое издание ISO/IEC 8859-8:1988 в 1988 году. Его неофициально называют Латинским/ивритским . ISO/IEC 8859-8 охватывает все буквы иврита , но не гласные знаки иврита . IBM присвоила ему кодовую страницу 916 ( CCSID 916 и 5012). [2] [3] [4] Этот набор символов был также принят израильским стандартом SI1311:2002 с некоторыми расширениями.

ISO-8859-8 — это предпочитаемое IANA название набора символов для этого стандарта, когда оно дополнено управляющими кодами C0 и C1 из ISO/IEC 6429. Текст (обычно) находится в логическом порядке, поэтому для отображения требуется обработка bidi . Номинально ISO-8859-8 ( кодовая страница 28598 ) предназначено для «визуального порядка», а ISO-8859-8- I ( кодовая страница 38598 ) — для логического порядка. Но обычно на практике и в обязательном порядке для XML-документов [ требуется ссылка ] ISO-8859-8 также обозначает текст в логическом порядке. Стандарт кодирования WHATWG , используемый HTML5, рассматривает ISO-8859-8 и ISO-8859-8- I как отдельные кодировки с одинаковым отображением из-за влияния на направление макета, но отмечает, что это больше не применяется к ISO-8859-6 (арабский), а только к ISO-8859-8. [5]

Существует также стандарт ISO-8859-8-E , который якобы требует явного указания направления с помощью специальных управляющих символов; этот последний вариант на практике не используется.

Кодовая страница Microsoft Windows для иврита, Windows-1255 , в основном является расширением ISO/IEC 8859-8 без элементов управления C1, за исключением пропуска двойного подчеркивания и замены общего знака валюты ( ¤ ) на знак шекеля (₪). Она добавляет поддержку гласных в качестве комбинационных символов и некоторую дополнительную пунктуацию.

Спустя десятилетие после публикации этого стандарта, Unicode является предпочтительным, по крайней мере для Интернета [6] (имеется в виду UTF-8 , доминирующая кодировка для веб-страниц). ISO-8859-8 используется менее чем 0,1% веб-сайтов. [7]

Макет кодовой страницы

  Отличается как от DEC Hebrew (8-бит), так и от ISO-8859-1 .

FD — это знак с направлением письма слева направо (U+200E), а FE — это знак с направлением письма справа налево (U+200F), как указано в новой поправке ISO/IEC 8859-8:1999.

Расширения израильского стандарта 2002 г.

Израильский стандарт SI1311:2002 соответствует ISO/IEC 8859-8:1999, за исключением ряда дополнительных символов для знака евро , нового знака шекеля и более продвинутого явного двунаправленного форматирования . [12]

  Отсутствует в ISO/IEC 8859-8:1999, добавлен в SI1311:2002.

Смотрите также

Ссылки

  1. ^ Наборы символов, Управление по распределению адресов в Интернете (IANA), 2018-12-12
  2. ^ "Информационный документ о кодовой странице 916". Архивировано из оригинала 2017-02-16.
  3. ^ "Информационный документ CCSID 916". Архивировано из оригинала 29.11.2014.
  4. ^ "Информационный документ CCSID 5012". Архивировано из оригинала 27.03.2016.
  5. ^ ван Кестерен, Энн . "9. Устаревшие однобайтовые кодировки". Стандарт кодировки . WHATWG . Примечание: ISO-8859-8 и ISO-8859-8- I — это разные названия кодировок, поскольку ISO-8859-8 влияет на направление компоновки. И хотя исторически это могло быть справедливо и для ISO-8859-6 и "ISO-8859-6- I ", теперь это уже не так.
  6. ^ Джон, Николас А. (2013). «Строительство многоязычного Интернета: Unicode, иврит и глобализация». Журнал компьютерно-опосредованной коммуникации . 18 (3): 321–338. doi : 10.1111/jcc4.12015 . ISSN  1083-6101. Предыстория: проблема иврита и Интернета
  7. ^ "Статистика использования ISO-8859-8 для веб-сайтов, январь 2019 г.". w3techs.com . Получено 17.01.2019 .
  8. ^ Кодовая страница CPGID 00916 (pdf) (PDF) , IBM
  9. ^ Кодовая страница CPGID 00916 (txt), IBM
  10. ^ Международные компоненты для Unicode (ICU), ibm-916_P100-1995.ucm, 2002-12-03
  11. ^ Международные компоненты для Unicode (ICU), ibm-5012_P100-1999.ucm, 2002-12-03
  12. ^ ab Институт стандартов Израиля . ISO-IR-234: Набор символов латиницы/иврита для 8-битных кодов (PDF) . ITSCJ/ IPSJ .

Внешние ссылки