stringtranslate.com

Юникод и электронная почта

Многие почтовые клиенты теперь предлагают некоторую поддержку Unicode . Некоторые клиенты автоматически выбирают между устаревшей кодировкой и Unicode в зависимости от содержимого письма, либо автоматически [1] , либо по запросу пользователя. [2]

Технические требования для отправки сообщений, содержащих символы, не входящие в набор ASCII, по электронной почте включают:

Если адрес электронной почты отправителя или получателя содержит символы, не входящие в набор ASCII, отправка сообщения также требует их кодирования в формат, понятный почтовым серверам.

Поддержка Unicode в протоколах

Поддержка Unicode в заголовке сообщения

Чтобы использовать Unicode в определенных полях заголовка электронной почты, например, в строках темы, именах отправителя и получателя, текст Unicode должен быть закодирован с использованием MIME "Encoded-Word" с кодировкой Unicode в качестве набора символов. Чтобы использовать Unicode в доменной части адресов электронной почты, традиционно должна использоваться кодировка IDNA . В качестве альтернативы, SMTPUTF8 [3] позволяет использовать кодировку UTF-8 в адресах электронной почты (как в локальной части, так и в доменном имени), а также в разделе заголовка почты. Были созданы различные стандарты для модернизации обработки не-ASCII данных в изначальном протоколе электронной почты только с ASCII:

Поддержка Unicode в тексте сообщений

Как и во всех кодировках, кроме US-ASCII , при использовании текста Unicode в электронной почте необходимо использовать MIME , чтобы указать, что для текста используется формат преобразования Unicode.

UTF-7 , устаревшая кодировка, имела преимущество перед кодировками Unicode в устаревших сетях non-8bit-clean, поскольку не требовала кодировки передачи для соответствия семибитным ограничениям устаревших почтовых серверов Интернета. С другой стороны, UTF-16 должна быть закодирована для передачи, чтобы соответствовать формату данных SMTP. Хотя это и не является строго обязательным, UTF-8 обычно также кодируется для передачи, чтобы избежать проблем на семибитных почтовых серверах. Кодировка передачи MIME UTF-8 делает его либо нечитаемым как обычный текст (в случае base64 ), либо, для некоторых языков и типов текста, крайне неэффективным по размеру (в случае quote-printable ).

Некоторые форматы документов, такие как HTML , PostScript и Rich Text Format, имеют собственные 7-битные схемы кодирования для не-ASCII символов и, таким образом, могут быть отправлены без использования каких-либо специальных кодировок электронной почты. Например, электронная почта HTML может использовать HTML-сущности для использования символов из любого места в Unicode, даже если исходный текст HTML для электронной почты находится в устаревшей кодировке (например, 7-битный ASCII). Подробнее об этом см. Unicode и HTML .

Смотрите также

Ссылки

  1. ^ "wanderlust/apel". GitHub . Получено 2018-09-05 .
  2. ^ "Настройка Outlook на использование UTF-8" . Получено 2018-09-05 .
  3. ^ ab Jiankang, Yao; Wei, Mao (февраль 2012 г.). "SMTP Extension for Internationalized Email". tools.ietf.org . Получено 05.09.2018 .
  4. ^ Мур, Кит (ноябрь 1996 г.). «MIME (многоцелевые расширения интернет-почты), часть третья: расширения заголовков сообщений для не-ASCII текста». tools.ietf.org . Получено 05.09.2018 .
  5. ^ Кленсин, Джон С. (август 2010 г.). «Интернационализированные доменные имена для приложений (IDNA): определения и структура документа». tools.ietf.org . Получено 05.09.2018 .
  6. ^ Абель, Янг; Шон, Стил (февраль 2012 г.). «Интернационализированные заголовки электронной почты». tools.ietf.org . Получено 05.09.2018 .

Внешние ссылки