stringtranslate.com

ИСО/МЭК 8859-1

ISO/IEC 8859-1:1998 , Информационные технологии. 8-битные однобайтовые наборы графических символов . Часть 1. Латинский алфавит № 1 , является частью серии ISO/IEC 8859 стандартных кодировок символов на основе ASCII , сначала издание, опубликованное в 1987 году. ISO/IEC 8859-1 кодирует так называемый «латинский алфавит № 1», состоящий из 191 символа латинского алфавита . Эта схема кодирования символов используется в Северной и Южной Америке , Западной Европе , Океании и большей части Африки . Он является основой некоторых популярных 8-битных наборов символов и первых двух блоков символов Юникода .

ISO-8859-1 был (по крайней мере, согласно стандарту) кодировкой по умолчанию для документов, доставляемых через HTTP , с типом MIME, начинающимся с text/. По состоянию на декабрь 2023 года 1,3% всех (и 14 из 1000 крупнейших [1] ) веб-сайтов используют ISO/IEC 8859-1 . [2] [3] Это наиболее заявленная кодировка однобайтовых символов, но поскольку веб-браузеры и стандарт HTML5 [4] интерпретируют ее как надмножество Windows-1252 , эти документы могут включать символы из этого набора.

В зависимости от страны или языка использование (по крайней мере, на веб-сайтах) может быть намного выше, чем в среднем по миру, например (включая Windows-1252), в Бразилии, согласно использованию веб-сайта, использование составляет 3,8%, [5] и в Германии. на уровне 3,2%. [6] [7]

ISO-8859-1 был кодировкой по умолчанию для значений некоторых описательных заголовков HTTP и определял набор символов, разрешенных в документах HTML  3.2, а также определялся многими другими стандартами. Редко предполагается, что это кодировка текста в операционных системах (хотя в прошлом она была очень распространена), хотя, если используется 8-битная кодировка, то, скорее всего, в Microsoft Windows будет использоваться расширенная кодировка Windows-1252, если отсутствует метка порядка байтов (BOM); [8] это только постепенно меняется на UTF-8 .

ISO-8859-1 является предпочтительным названием IANA для этого стандарта, дополненным управляющими кодами C0 и C1 из ISO/IEC 6429 . Зарегистрированы следующие другие псевдонимы: iso-ir-100 , csISOLatin1 , latin1 , l1 , IBM819 . В Windows для этого используется кодовая страница 28591, также известная как Windows-28591 . [9] IBM называет это кодовой страницей 819 или CP819 ( CCSID 819). [10] [11] [12] [13] Oracle называет его WE8ISO8859P1 . [14]

Покрытие

Каждый символ кодируется как одно восьмибитное кодовое значение. Эти кодовые значения можно использовать практически в любой системе обмена данными для общения на следующих языках (хотя при этом могут быть исключены правильные кавычки , например, для многих языков, включая немецкий и исландский):

Современные языки с полным охватом

Примечания
  1. ^ Основная классическая орфография
  2. ^ Сценарий Руми
  3. ^ Бокмол и Нюнорск
  4. ^ Европейский и бразильский

Языки с неполным охватом

ISO-8859-1 обычно использовался [ необходима ссылка ] для некоторых языков, хотя в нем отсутствуют символы, используемые этими языками. В большинстве случаев отсутствуют лишь несколько букв или они используются редко, и их можно заменить символами ISO-8859-1, используя ту или иную форму типографского приближения . В следующей таблице перечислены такие языки.

Буква ÿ , которая встречается во французском языке очень редко, в основном в названиях городов, таких как L'Haÿ-les-Roses , и никогда в начале слов, включается только в строчной форме. Слот, соответствующий его прописной форме, занимает строчная буква ß из немецкого языка, не имевшая прописной формы на момент создания стандарта.

Кавычки

Для некоторых языков, перечисленных выше, правильные типографские кавычки отсутствуют, а включены только « », " "и . ' 'Также в этой схеме не предусмотрены ориентированные (6- или 9-образные) одинарные или двойные кавычки. В некоторых шрифтах пробельный знак (0x60) и апостроф (0x27) отображаются как совпадающая пара ориентированных одинарных кавычек (см. Кавычка § Пишущие машинки и ранние компьютеры ), но это не считается частью современного стандарта.

История

ISO 8859-1 был основан на многонациональном наборе символов (MCS), используемом Digital Equipment Corporation (DEC) в популярном терминале VT220 в 1983 году. Он был разработан Европейской ассоциацией производителей компьютеров (ECMA) и опубликован в марте 1985 года как ECMA. -94 , [15] под каким названием его иногда называют до сих пор. Второе издание ECMA-94 (июнь 1986 г.) [16] также включало в себя ISO 8859-2 , ISO 8859-3 и ISO 8859-4 как часть спецификации.

В исходном проекте ISO 8859-1 французские буквы Œ и œ размещались в кодовых точках 215 (0xD7) и 247 (0xF7), как и в MCS. Однако делегат из Франции, не будучи ни лингвистом, ни типографом, ложно заявил, что это не самостоятельные французские буквы, а простые лигатуры (такие как fi или f ), поддержанные командой делегатов из Bull Publishing Company, которая регулярно В то время они не печатали по-французски с Œ/œ в своем фирменном стиле. Англоязычный делегат из Канады настаивал на сохранении Œ/œ , но получил отказ со стороны французского делегата и команды из Bull. Эти кодовые позиции вскоре были заполнены знаками × и ÷ по предложению немецкой делегации. Поддержка французского языка еще больше сократилась, когда снова было ошибочно заявлено, что буква ÿ «не французская», что привело к отсутствию заглавной буквы Ÿ . Фактически, буква ÿ встречается во многих французских именах собственных, а заглавная буква использовалась в словарях и энциклопедиях. [17] Эти символы были добавлены в ISO/IEC 8859-15:1999 . BraSCII соответствует исходному проекту.

В 1985 году Commodore приняла ECMA-94 для своей новой операционной системы AmigaOS . [18] Ударный матричный принтер Seikosha MP-1300AI, используемый с Amiga 1000, включал эту кодировку. [ нужна цитата ]

В 1990 году самая первая версия Unicode использовала кодовые точки ISO-8859-1 в качестве первых 256 кодовых точек Unicode.

В 1992 году IANA зарегистрировала карту символов ISO_8859-1:1987 , более известную под предпочтительным MIME -именем ISO-8859-1 (обратите внимание на дополнительный дефис вместо ISO 8859-1), надмножеством ISO 8859-1, для использовать в Интернете . Эта карта присваивает управляющие коды C0 и C1 неназначенным значениям кода, таким образом, обеспечивая 256 символов для каждого возможного 8-битного значения.

Макет кодовой страницы

Похожие наборы символов

ИСО/МЭК 8859-15

ISO/IEC 8859-15 был разработан в 1999 году как обновление ISO/IEC 8859-1. Он предоставляет некоторые символы для французского и финского текста, а также знак евро , которые отсутствуют в ISO/IEC 8859-1. Это потребовало удаления некоторых редко используемых символов из ISO/IEC 8859-1, включая символы дробей и безбуквенные диакритические знаки: ¤, ¦, ¨, ´, ¸, ¼, ½и ¾. По иронии судьбы, три из недавно добавленных символов ( Œ, œи Ÿ) уже присутствовали в многонациональном наборе символов (MCS) DEC 1983 года , предшественнике ISO/IEC 8859-1 (1987). Поскольку их исходные кодовые точки теперь повторно использовались для других целей, символы пришлось повторно вводить под другими, менее логичными кодовыми точками.

ISO-IR-204, более незначительная модификация, была зарегистрирована в 1998 году, в ней был изменен ISO-8859-1 путем замены универсального знака валюты (¤) на знак евро [19] (та же замена сделана в ISO-8859-15). ).

Windows-1252

Популярный набор символов Windows-1252 добавляет все недостающие символы, предусмотренные ISO/IEC 8859-15 , а также ряд типографских символов, заменяя редко используемые элементы управления C1 в диапазоне от 128 до 159 ( шестнадцатеричные от 80 до 9F). Очень часто текст Windows-1252 ошибочно помечают как текст ISO-8859-1. Общим результатом было то, что все кавычки и апострофы (созданные «умными кавычками» в текстовом редакторе) были заменены вопросительными знаками или прямоугольниками в операционных системах, отличных от Windows, что затрудняло чтение текста. Многие веб-браузеры и почтовые клиенты интерпретируют управляющие коды ISO-8859-1 как символы Windows-1252, и это поведение позже было стандартизировано в HTML5 . [20]

Мак Роман

В 1984 году на компьютере Apple Macintosh появилась кодировка символов Mac Roman. Она должна была подходить для настольных издательских систем Западной Европы . Это расширенный набор ASCII, в котором содержится большинство символов ISO-8859-1 и все дополнительные символы из Windows-1252, но в совершенно другом расположении. Несколько печатных символов, которые есть в ISO/IEC 8859-1, но не входят в этот набор, часто являются источником проблем при редактировании текста на веб-сайтах с использованием старых браузеров Macintosh, включая последнюю версию Internet Explorer для Mac .

Другой

DOS имеет кодовую страницу 850 , в которой есть все печатные символы, которые есть в ISO-8859-1, хотя и в совершенно другом расположении, а также наиболее широко используемые графические символы из кодовой страницы 437 .

В период с 1989 [21] по 2015 год компания Hewlett-Packard использовала еще один расширенный набор ISO-8859-1 во многих своих калькуляторах. Этот собственный набор символов иногда также назывался просто «ECMA-94». [21] У HP также есть кодовая страница 1053 , которая добавляет средний оттенок (▒, U+2592) по адресу 0x7F. [22]

Несколько кодовых страниц EBCDIC были специально разработаны так, чтобы иметь тот же набор символов, что и ISO-8859-1, чтобы обеспечить легкое преобразование между ними.

Смотрите также

Рекомендации

  1. ^ «Обзор использования кодировок символов с разбивкой по рейтингу» . w3techs.com . Проверено 1 декабря 2023 г.
  2. ^ «Исторические тенденции в статистике использования кодировок символов для веб-сайтов, декабрь 2023 г.» . w3techs.com . Проверено 1 декабря 2023 г.
  3. ^ «Источник статистики кодировки символов?». w3techs.com .
  4. ^ «Кодировка». ЧТОРГ . 27 января 2015 г. сек. 5.2 Имена и метки. Архивировано из оригинала 4 февраля 2015 года . Проверено 4 февраля 2015 г.
  5. ^ «Распространение кодировок символов среди веб-сайтов, использующих Бразилию» . w3techs.com . Проверено 1 декабря 2023 г.
  6. ^ «Распространение кодировок символов среди веб-сайтов, использующих .de». w3techs.com . Проверено 1 декабря 2023 г.
  7. ^ «Распространение кодировок символов среди веб-сайтов, использующих немецкий язык» . w3techs.com . Проверено 16 января 2023 г.
  8. ^ «С++ — Какова собственная кодировка узкой строки в Windows?». Переполнение стека . Проверено 16 февраля 2023 г.
  9. ^ «Идентификаторы кодовых страниц». Корпорация Майкрософт . Проверено 19 декабря 2010 г.
  10. ^ «Информационный документ с кодовой страницей 819» . Архивировано из оригинала 16 января 2017 г.
  11. ^ «Информационный документ CCSID 819» . Архивировано из оригинала 27 марта 2016 г.
  12. ^ Кодовая страница CPGID 00819 (pdf) (PDF) , IBM
  13. ^ Кодовая страница CPGID 00819 (txt), IBM
  14. ^ Бэрд, Кэти; Чиба, Дэн; Чу, Уинсон; Фан, Джессика; Хо, Клэр; Закон, Саймон; Ли, Джефф; Линсли, Питер; Мацуда, Кени; Оскрофт, Тэмзин; Такеда, Сиге; Танака, Лайнус; Тозава, Макото; Это правда, Барри; Цудзимото, Маюми; Ву, Ин; Яу, Майкл; Ю, Тим; Ван, Чао; Вонг, Саймон; Чжан, Вейран; Чжэн, Лэй; Чжу, Ян; Мур, Валари (2002) [1996]. «Приложение A: Региональные данные». Руководство по поддержке глобализации баз данных Oracle9i (PDF) (выпуск 2 (9.2) ред.). Корпорация Оракл . Оракул A96529-01. Архивировано (PDF) из оригинала 14 февраля 2017 г. Проверено 14 февраля 2017 г.
  15. ^ ab Стандарт ECMA-94: 8-битный набор однобайтовых графических символов (PDF) (1-е изд.). Европейская ассоциация производителей компьютеров (ECMA). Март 1985 г. [14 декабря 1984 г.]. Архивировано (PDF) из оригинала 2 декабря 2016 г. Проверено 1 декабря 2016 г. […] С 1982 года острая необходимость в 8-битном однобайтовом кодированном наборе символов была признана в ECMA, а также в ANSI/X3L2, и между двумя группами произошел обмен многочисленными рабочими документами. В феврале 1984 года ECMA TC1 представил ISO/TC97/SC2 предложение по такому кодированному набору символов. На своем заседании в апреле 1984 г. КС решил представить ТК97 предложение о новом пункте работы по этой теме. Технические обсуждения во время и после этой встречи привели к тому, что TC1 принял схему кодирования, предложенную X3L2. Часть 1 проекта международного стандарта DTS 8859 основана на этом совместном предложении ANSI/ECMA. […] Принят в качестве стандарта ECMA Генеральной Ассамблеей 13–14 декабря 1984 г. […]
  16. ^ «Второе издание ECMA-94 (июнь 1986 г.)» (PDF) .
  17. ^ Жак, Андре (1996). «ISO Latin-1, норма кодирования европейских символов? Трое французских символов в отсутствии!» (PDF) . Cahiers GUTenberg (25): 65–77.
  18. ^ Малышев, Михаил (10 января 2003 г.). «Регистрация новой кодировки [Amiga-1251]». АТО-РУ (Организация переводов Амига - Русское отделение). Архивировано из оригинала 5 декабря 2016 г. Проверено 5 декабря 2016 г.
  19. ^ Стандартизация информационных технологий ITS (16 сентября 1998 г.). Дополнительный комплект для альтернативы Latin-1 со ЗНАКОМ ЕВРО (PDF) . ITSCJ/ IPSJ . ИСО-ИР -204.
  20. ^ ван Кестерен, Энн (27 января 2015 г.). «5.2 Названия и метки». Стандарт кодирования . ЧТОРГ . Архивировано из оригинала 4 февраля 2015 года . Проверено 4 февраля 2015 г.
  21. ^ ab Инфракрасный принтер HP 82240B (1-е изд.). Корваллис, Орегон, США: Hewlett-Packard . Август 1989 г. Номер повторного заказа HP 82240-90014 . Проверено 1 августа 2016 г.
  22. ^ «Кодовая страница 1053» (PDF) . Архивировано из оригинала (PDF) 21 января 2013 г.

Внешние ссылки