ISO/IEC 8859-8 , Информационные технологии — 8-битные однобайтовые кодированные графические наборы символов — Часть 8: Латинский/ивритский алфавит , является частью серии ISO/IEC 8859 стандартных кодировок символов на основе ASCII . ISO/IEC 8859-8:1999 от 1999 года представляет собой его вторую и текущую редакцию, которой предшествовало первое издание ISO/IEC 8859-8:1988 в 1988 году. Его неофициально называют Латинским/ивритским . ISO/IEC 8859-8 охватывает все буквы иврита , но не гласные знаки иврита . IBM присвоила ему кодовую страницу 916 ( CCSID 916 и 5012). [2] [3] [4] Этот набор символов был также принят израильским стандартом SI1311:2002 с некоторыми расширениями.
ISO-8859-8 — это предпочитаемое IANA название набора символов для этого стандарта, когда оно дополнено управляющими кодами C0 и C1 из ISO/IEC 6429. Текст (обычно) находится в логическом порядке, поэтому для отображения требуется обработка bidi . Номинально ISO-8859-8 ( кодовая страница 28598 ) предназначено для «визуального порядка», а ISO-8859-8- I ( кодовая страница 38598 ) — для логического порядка. Но обычно на практике и в обязательном порядке для XML-документов [ требуется ссылка ] ISO-8859-8 также обозначает текст в логическом порядке. Стандарт кодирования WHATWG , используемый HTML5, рассматривает ISO-8859-8 и ISO-8859-8- I как отдельные кодировки с одинаковым отображением из-за влияния на направление макета, но отмечает, что это больше не применяется к ISO-8859-6 (арабский), а только к ISO-8859-8. [5]
Существует также стандарт ISO-8859-8-E , который якобы требует явного указания направления с помощью специальных управляющих символов; этот последний вариант на практике не используется.
Кодовая страница Microsoft Windows для иврита, Windows-1255 , в основном является расширением ISO/IEC 8859-8 без элементов управления C1, за исключением пропуска двойного подчеркивания и замены общего знака валюты ( ¤ ) на знак шекеля (₪). Она добавляет поддержку гласных в качестве комбинационных символов и некоторую дополнительную пунктуацию.
Спустя десятилетие после публикации этого стандарта, Unicode является предпочтительным, по крайней мере для Интернета [6] (имеется в виду UTF-8 , доминирующая кодировка для веб-страниц). ISO-8859-8 используется менее чем 0,1% веб-сайтов. [7]
FD — это знак с направлением письма слева направо (U+200E), а FE — это знак с направлением письма справа налево (U+200F), как указано в новой поправке ISO/IEC 8859-8:1999.
Израильский стандарт SI1311:2002 соответствует ISO/IEC 8859-8:1999, за исключением ряда дополнительных символов для знака евро , нового знака шекеля и более продвинутого явного двунаправленного форматирования . [12]
Примечание: ISO-8859-8 и ISO-8859-8-
I
— это разные названия кодировок, поскольку ISO-8859-8 влияет на направление компоновки. И хотя исторически это могло быть справедливо и для ISO-8859-6 и "ISO-8859-6-
I
", теперь это уже не так.
Предыстория: проблема иврита и Интернета