stringtranslate.com

Омоглиф

Наложены омоглифы
U+0061 а ЛАТИНСКАЯ СТРОЧНАЯ БУКВА A и U+0430 а КИРИЛЛИЧЕСКАЯ СТРОЧНАЯ БУКВА A. На изображении оба символа набраны шрифтом Helvetica LT Std Roman.

В орфографии и типографике омоглиф это одна из двух или более графем , символов или глифов с формами, которые кажутся идентичными или очень похожими, но могут иметь разное значение. Обозначение также применяется к последовательностям символов, разделяющих эти свойства.

В 2008 году Консорциум Unicode опубликовал свой Технический отчет № 36 [1] по ряду вопросов, вытекающих из визуального сходства символов как в отдельных письменностях, так и сходства между символами в разных письменностях.

Примерами гомоглифических символов являются (a) диэрезис и умлаут (оба — пара точек, но с разным значением, хотя и кодируются одними и теми же кодовыми точками ); и (b) дефис и знак минус (оба — короткая горизонтальная черта, но с разным значением, хотя и часто кодируются одним и тем же кодовым точкой ). Среди цифр и букв цифра 1 и строчная l всегда кодируются отдельно, но во многих шрифтах им присваиваются очень похожие глифы, а цифра и заглавная O всегда кодируются отдельно, но во многих шрифтах им присваиваются очень похожие глифы. Практически каждый пример гомоглифической пары символов потенциально может быть дифференцирован графически с помощью четко различимых глифов и отдельных кодовых точек, но это не всегда делается. Шрифты , которые не выделяют четко омоглифы one/el и zero/oh, считаются неподходящими для написания формул , URL-адресов , исходного кода , идентификаторов и другого текста, где символы не всегда можно различить без контекста . Шрифты, которые выделяют глифы с помощью перечеркнутого нуля , например, предпочтительны для этих целей.

Связанные термины

Термин «омограф» иногда неправильно используется как синоним слова «омоглиф», но в обычном лингвистическом смысле омографы — это слова , которые пишутся одинаково, но имеют разное значение, что является свойством слов, а не символов.

Аллографы — это варианты дизайна шрифта , которые выглядят по-разному, но означают одно и то же — например, ⟨g⟩ и ⟨g⟩ , или знак доллара с одним или двумя штрихами. Термин синоглиф имеет похожее, но немного более абстрактное значение — например, символ ⟨£⟩ и буква ⟨L⟩ (в Lsd ) оба означают фунт стерлингов , [2] но только в этом контексте. Аллографы и синоглифы также неофициально известны как display variations .

Умляут и диарезис

В дни ранних механических пишущих машинок они печатались с помощью той же клавиши (с использованием техники «возврата и надпечатки»), которая также использовалась для двойной кавычки. Однако умлаут возник именно как пара коротких вертикальных линий (а не две точки) (см. Sutterlin ). Кстати, две точки над буквой E в албанском языке описываются как диарезис, но не выполняют функцию диарезиса. [3]

0 и О; 1, л и я

Два распространенных и важных набора омоглифов, используемых сегодня, — это цифра ноль и заглавная буква O (т. е. 0 и O); и цифра один, строчная буква L и заглавная i (т. е. 1, l и I). В ранние дни механических пишущих машинок между этими глифами было очень мало или вообще не было визуальной разницы, и машинистки относились к ним взаимозаменяемо как к сочетаниям клавиш. Фактически, на большинстве клавиатур даже не было клавиши для цифры «1», требуя от пользователей набирать вместо нее букву «l», а некоторые также пропускали 0. Когда эти же машинистки в 1970-х и 1980-х годах стали операторами компьютерной клавиатуры, их старые привычки набора на клавиатуре сохранились и были случайным источником путаницы.

Большинство современных шрифтовых дизайнов тщательно различают эти гомоглифы, обычно рисуя цифру ноль уже и рисуя цифру один с выступающими засечками . Ранние компьютерные распечатки пошли еще дальше и обозначили ноль косой чертой или точкой, что привело к новому конфликту, связанному со скандинавской буквой « Ø » и греческой буквой Φ ( фи ). Перепроектирование типов символов для различения этих символов означало меньшую путаницу. Степень, в которой два разных символа кажутся одинаковыми данному наблюдателю, называется «визуальным сходством». [4]

Некоторые шрифты соответствуют стандарту читаемости DIN 1450, поскольку тщательно прорабатывают такие символы, которые легко различить: перечеркнутый ноль , чтобы отличить его от заглавной буквы O; строчная буква l с хвостиком и заглавная I с засечками, чтобы отличить ее от цифры 1; отличие цифры 5 от заглавной S и т. д. [5]

Примером путаницы из-за почти гомоглифов стало использование ⟨y⟩ для обозначения ⟨þ⟩ ( шип ). Ранние английские наборщики импортировали голландские наборы, которые не содержали последнего символа, поэтому вместо этого использовали букву ⟨y⟩ , поскольку (в шрифте Blackletter ) они выглядят достаточно похожими. [6] В наше время это привело к таким явлениям, как Ye olde shoppe , неверно подразумевая, что слово the раньше писалось ye / j /, а не þe . Написание имени Menzies (произносится как Mengis и изначально пишется как Menȝies ) возникло по той же причине: буква ⟨z⟩ была заменена на ⟨ȝ⟩ ( йог ).

Многобуквенные омоглифы

Буквы m и r+n в шрифтах Arial , Calibri , Times New Roman , Cambria , Walbaum - Fraktur и Comic Sans
Святой Эфан Щотковский выглядит как Эфан Щотковский на надгробии.

Некоторые другие сочетания букв выглядят похоже, например, rn похоже на m , cl похоже на d , а vv похоже на w .

В некоторых шрифтах с узким интервалом (например, Tahoma ) размещение буквы c рядом с такой буквой, как j, l или i, создаст омоглиф, например, cj cl ci (gda).

Когда некоторые символы расположены рядом друг с другом, они кажутся похожими на другой, не связанный с ними символ. Более точный способ сказать это — некоторые типографские лигатуры могут выглядеть как отдельные глифы. Например, лигатура фи ( fi ) может выглядеть как A в некоторых гарнитурах или шрифтах. Эта возможность путаницы иногда является аргументом против использования лигатур. [ необходима цитата ]

Омоглифы Unicode

Три наиболее известных европейских алфавита (греческий, кириллица и латиница) имеют много общих буквенных форм, которые закодированы в Unicode под отдельными кодовыми точками.

В Unicode есть кодовые точки для многих сильно гомоглифических символов, известных как «смешиваемые». [1] Они представляют угрозу безопасности в различных ситуациях (рассматривается в UTR#36) [7] и были привлечены к особому вниманию в отношении интернационализированных доменных имен . По крайней мере, теоретически можно намеренно подделать доменное имя, заменив один символ его гомоглифом, создав таким образом второе доменное имя, неотличимое от первого, что может быть использовано в фишинге ( см. основную статью Атака с использованием омографа IDN ). Во многих шрифтах греческая буква «Α», кириллическая буква «А» и латинская буква «A» визуально идентичны, как и латинская буква «a» и кириллическая буква «а» ( то же самое можно применить к латинским буквам «aBceHKopTxy» и кириллическим буквам « аВсеНКорТху »). Доменное имя можно подделать, просто заменив одну из этих форм на другую в отдельно зарегистрированном имени. Существует также много примеров почти гомоглифов в пределах одного и того же алфавита, таких как 'í' (с острым ударением) и 'i', É (E-острый) и Ė (E точка над) и È (E-грав), Í (с острым ударением) и ĺ (строчная L с острым). При обсуждении этой конкретной проблемы безопасности любые две последовательности похожих символов могут быть оценены с точки зрения их потенциальной возможности быть принятыми как 'пара гомоглифов' или, если последовательности явно кажутся словами, как 'псевдомографы' (еще раз отметим, что эти термины сами по себе могут вызывать путаницу в других контекстах). В китайском языке многие упрощенные китайские иероглифы являются омоглифами соответствующих традиционных китайских иероглифов .

Усилия регистраторов TLD и разработчиков веб-браузеров направлены на минимизацию рисков гомоглифической путаницы. Обычно это достигается путем запрета имен, которые смешивают наборы символов из разных языков ( toys-Я-us.org , использующий кириллическую букву Я , был бы недействительным, но wíkipedia.org и wikipedia.org все еще существуют как разные веб-сайты); канадский реестр .ca идет на шаг дальше, требуя, чтобы имена, которые отличаются только диакритическими знаками, имели одного и того же владельца и одного и того же регистратора. [8] Обработка китайских иероглифов различается: в .org и .info регистрация одного варианта делает другой недоступным для всех, в то время как в .biz традиционная и упрощенная версии одного и того же имени предоставляются в виде двухдоменного пакета, которые оба указывают на один и тот же сервер доменных имен .

Соответствующую документацию можно найти как на веб-сайтах разработчиков, так и на форуме IDN [9], предоставленном ICANN .


В кириллице кириллическая буква С не только выглядит как латинская C , но и занимает ту же кнопку в клавиатурах с гибридной раскладкой JCUKEN-QWERTY. Этот нюанс дизайна можно увидеть на кнопке C/С, представленной в Памятнике клавиатуре в Екатеринбурге .

Канонизация

Омоглифы всех видов можно обнаружить с помощью процесса, называемого «двойной канонизацией». [4] Первым шагом в этом процессе является определение наборов омоглифов, а именно символов, которые кажутся одинаково данному наблюдателю. Отсюда указывается один токен для представления набора омоглифов. Этот токен называется каноном. Следующий шаг — преобразование каждого символа в тексте в соответствующий канон в процессе, называемом канонизацией . Если каноны двух фрагментов текста одинаковы, но исходный текст отличается, то в тексте существует омоглиф.

Предотвращение гомоглифа

Атаки с использованием гомоглифа можно смягчить за счет сочетания осведомленности пользователей и упреждающих мер. Крайне важно информировать пользователей о рисках, связанных с атаками с использованием гомоглифа, призывая их тщательно проверять URL-адреса перед нажатием. [10] Использование передовых решений безопасности, особенно тех, которые способны сканировать вариации гомоглифа в доменных именах, может автоматизировать обнаружение и предотвращение потенциальных угроз. Кроме того, внедрение строгих политик мониторинга и регистрации доменных имен может помочь оперативно выявлять и нейтрализовывать риски, связанные с гомоглифом. Развивая культуру кибербдительности и используя передовые технологии, организации могут усилить свою защиту от атак с использованием гомоглифа, обеспечивая более безопасную онлайн-среду.

Смотрите также


Ссылки

  1. ^ ab "UTR #36: Вопросы безопасности Unicode". www.unicode.org .
  2. ^ Уолтон, Чэс (7 октября 2020 г.). «Руководство для писателей по диакритическим знакам и специальным символам». Text Wizard .
  3. ^ Описание их как омоглифов сомнительно, поскольку, вероятно, нет языков, в которых глиф может выполнять обе эти роли. Было бы столь же допустимо описать, скажем, гравис как омоглиф, поскольку он выполняет разные роли в разных языках.
  4. ^ ab Helfrich, James; Neff, Rick (2012). «Двойная канонизация: ответ на атаку омографа». 2012 e Crime Researchers Summit . eCrime Researchers Summit (eCrime), 2012. стр. 1–10. doi :10.1109/eCrime.2012.6489517. ISBN 978-1-4673-2543-1.
  5. ^ Найджел Тао, Чак Бигелоу и Роб Пайк. Шрифты Go: стандарт удобочитаемости DIN". 2016.
  6. ^ Хилл, Уилл (30 июня 2020 г.). «Глава 25: Типографика и печатный английский текст» (PDF) . Справочник Routledge по английской системе письма . Тейлор и Фрэнсис. стр. 6. ISBN 9780367581565. Архивировано из оригинала (PDF) 10 июля 2022 г. . Получено 24 января 2024 г. Шрифты, используемые Кэкстоном и его современниками, возникли в Голландии и Бельгии и не предусматривали постоянного использования элементов древнеанглийского алфавита, таких как thorn <þ>, eth <ð> и yogh <ʒ>. Замена визуально похожих типографских форм привела к некоторым аномалиям, которые сохраняются и по сей день при перепечатке архаичных текстов и написании региональных слов. Широко неправильно понимаемое «ye» происходит из-за привычки использования печатниками, которая берет свое начало во времена Кэкстона, когда печатники заменяли <y> (часто сопровождаемый надстрочным индексом <e>) вместо thorn <þ> или eth <ð>, которые оба использовались для обозначения как звонких, так и глухих звуков, /ð/ и /θ/ (Андерсон, Д. (1969) Искусство письменных форм. Нью-Йорк: Холт, Райнхарт и Уинстон, стр. 169)
  7. ^ "UTR #36: Вопросы безопасности Unicode". unicode.org .
  8. ^ "Зарегистрируйте .CA на французском языке!". Архивировано из оригинала 2013-03-28 . Получено 2013-03-29 .
  9. ^ "Архивы электронной почты ICANN: [idn-guidelines]". forum.icann.org .
  10. ^ https://governance.dev/phishing-domain-check, дата обращения 12 февраля 2024 г.

Внешние ссылки