Многие почтовые клиенты теперь предлагают некоторую поддержку Unicode . Некоторые клиенты автоматически выбирают между устаревшей кодировкой и Unicode в зависимости от содержимого письма, либо автоматически [1] , либо по запросу пользователя. [2]
Технические требования для отправки сообщений, содержащих символы, не входящие в набор ASCII, по электронной почте включают:
Если адрес электронной почты отправителя или получателя содержит символы, не входящие в набор ASCII, отправка сообщения также требует их кодирования в формат, понятный почтовым серверам.
Чтобы использовать Unicode в определенных полях заголовка электронной почты, например, в строках темы, именах отправителя и получателя, текст Unicode должен быть закодирован с использованием MIME "Encoded-Word" с кодировкой Unicode в качестве набора символов. Чтобы использовать Unicode в доменной части адресов электронной почты, традиционно должна использоваться кодировка IDNA . В качестве альтернативы, SMTPUTF8 [3] позволяет использовать кодировку UTF-8 в адресах электронной почты (как в локальной части, так и в доменном имени), а также в разделе заголовка почты. Были созданы различные стандарты для модернизации обработки не-ASCII данных в изначальном протоколе электронной почты только с ASCII:
Как и во всех кодировках, кроме US-ASCII , при использовании текста Unicode в электронной почте необходимо использовать MIME , чтобы указать, что для текста используется формат преобразования Unicode.
UTF-7 , устаревшая кодировка, имела преимущество перед кодировками Unicode в устаревших сетях non-8bit-clean, поскольку не требовала кодировки передачи для соответствия семибитным ограничениям устаревших почтовых серверов Интернета. С другой стороны, UTF-16 должна быть закодирована для передачи, чтобы соответствовать формату данных SMTP. Хотя это и не является строго обязательным, UTF-8 обычно также кодируется для передачи, чтобы избежать проблем на семибитных почтовых серверах. Кодировка передачи MIME UTF-8 делает его либо нечитаемым как обычный текст (в случае base64 ), либо, для некоторых языков и типов текста, крайне неэффективным по размеру (в случае quote-printable ).
Некоторые форматы документов, такие как HTML , PostScript и Rich Text Format, имеют собственные 7-битные схемы кодирования для не-ASCII символов и, таким образом, могут быть отправлены без использования каких-либо специальных кодировок электронной почты. Например, электронная почта HTML может использовать HTML-сущности для использования символов из любого места в Unicode, даже если исходный текст HTML для электронной почты находится в устаревшей кодировке (например, 7-битный ASCII). Подробнее об этом см. Unicode и HTML .