В филологии дешифровка — это открытие значения символов, обнаруженных в вымерших языках и /или алфавитах . [1]
Дешифрование пересекается с другой технической областью, известной как криптоанализ , областью, которая направлена на расшифровку записей, используемых в секретной связи, известной как шифротекст . Известный случай этого был в криптоанализе Энигмы во время Второй мировой войны . Многие другие шифры прошлых войн были взломаны только недавно. [2] Однако, в отличие от расшифровки языка, субъекты, использующие шифротекст, намеренно создают препятствия, чтобы помешать посторонним раскрыть смысл системы связи. [3]
На сегодняшний день не менее дюжины языков остаются нерасшифрованными. [4] Знаменательной недавней расшифровкой стала расшифровка линейного эламского письма. [5]
По мнению Гельба и Уайтинга, подход к дешифрованию зависит от четырех категорий ситуаций в нерасшифрованном языке: [3] [6]
Существует ряд методов, позволяющих расшифровать вымершую письменность или язык. Их можно разделить на подходы, использующие внешнюю или внутреннюю информацию. [3]
Многие успешные шифровки исходили из открытия внешней информации, распространенным примером является использование многоязычных надписей , таких как Розеттский камень (с одним и тем же текстом в трех письменностях: демотической , иероглифической и греческой ), что позволило расшифровать египетские иероглифы. В принципе, многоязычный текст может быть недостаточным для расшифровки, поскольку перевод не является линейным и обратимым процессом, а вместо этого представляет собой кодирование сообщения в другой символической системе. Перевод текста с одного языка на другой, а затем со второго языка обратно на первый редко воспроизводит в точности исходное письмо. Аналогичным образом, если только в многоязычном тексте не содержится значительного количества слов, из него можно почерпнуть ограниченную информацию. [3]
Внутренние подходы многошаговые: сначала нужно убедиться, что рассматриваемое письмо представляет собой настоящее письмо, а не группу изобразительных изображений или современную подделку без дальнейшего смысла. Обычно к этому подходят с помощью методов из области грамматологии . Перед расшифровкой смысла можно определить количество отдельных графем (что, в свою очередь, позволяет определить, является ли система письма алфавитной, слоговой или логослоговой; это связано с тем, что такие системы письма обычно не пересекаются по количеству используемых графем [6] ), последовательность письма (будь то слева направо, справа налево, сверху вниз и т. д.) и определение того, правильно ли сегментированы отдельные слова при написании алфавита (например, с использованием пробела или другого специального знака) или нет. Если можно определить повторяющееся схематическое расположение, это может помочь в расшифровке. Например, если в последней строке текста есть небольшое число, можно обоснованно предположить, что оно относится к дате, где одно из слов означает «год», а иногда также появляется королевское имя. Другой случай — когда текст содержит много небольших чисел, за которыми следует слово, за которым следует большее число; здесь слово, вероятно, означает «итого» или «сумма». После того, как информация, которая может быть выведена из вероятного содержания, исчерпана, необходимо перейти к систематическому применению статистических инструментов. К ним относятся методы, касающиеся частоты появления каждого символа, порядка, в котором эти символы обычно появляются, появляются ли некоторые символы в начале или конце слов и т. д. Существуют ситуации, когда орфографические особенности языка затрудняют, если не делают невозможным, расшифровку определенных признаков (особенно без определенной внешней информации), например, когда алфавит не выражает двойные согласные. Существуют также дополнительные и более сложные методы. В конечном итоге применение таких статистических методов становится чрезвычайно трудоемким, и для их автоматического применения можно использовать компьютеры. [3]
Вычислительные подходы к расшифровке неизвестных языков начали появляться в конце 1990-х годов. [7] Обычно существует два типа вычислительных подходов, используемых при расшифровке языка: подходы, предназначенные для создания переводов на известных языках, и подходы, используемые для обнаружения новой информации, которая может позволить будущие усилия по переводу. Второй подход более распространен и включает такие вещи, как обнаружение родственных или связанных слов, обнаружение ближайшего известного языка, выравнивание слов и многое другое. [6]
В последние годы все больше внимания уделяется методам, использующим искусственный интеллект для расшифровки утраченных языков, особенно с помощью методов обработки естественного языка (NLP). Методы проверки концепции независимо друг от друга перерасшифровали угаритское и линейное письмо B , используя данные из похожих языков, в данном случае иврита и древнегреческого . [8]
Связанные с попытками расшифровать значение языков и алфавитов, включают попытки расшифровать, как произносились вымершие системы письма или более старые версии современных систем письма (например, английский в 1600-х годах). В этой связи было разработано несколько методов и критериев. Важные критерии включают (1) Рифмы и свидетельства поэзии (2) Доказательства из случайных написаний и орфографических ошибок (3) Интерпретации материала на одном языке авторами на иностранных языках (4) Информация, полученная из родственных языков (5) Грамматические изменения в написании с течением времени. [9]
Например, анализ поэзии фокусируется на использовании игры слов или литературных приемов между словами, имеющими похожее звучание. Пьеса Шекспира « Ромео и Джульетта» содержит игру слов, которая опирается на похожее звучание между словами «душа» и «подошвы», что позволяет с уверенностью утверждать, что похожее произношение между терминами сегодня также существовало во времена Шекспира. Другим распространенным источником информации о произношении является использование рифмы в более ранних текстах , например, когда последовательные строки в поэзии заканчиваются похожим или одинаковым звуком. Однако этот метод имеет некоторые ограничения, поскольку тексты могут использовать рифмы, которые опираются на визуальное сходство между словами (например, «любовь» и «удалить»), а не на слуховое сходство, и что рифмы могут быть несовершенными . Другой источник информации о произношении исходит из явного описания произношений из более ранних текстов, как в случае с Grammatica Anglicana , например, в следующем комментарии о букве <o>: «В долгое время она, естественно, звучит резко и высоко; как в chósen, hósen, hóly, fólly [...] В короткое время более ровно и похоже на u; как còsen, dòsen, mòther, bròther, lòve, pròve». [10] Другой пример исходит из подробных комментариев о произношении санскрита из сохранившихся трудов санскритских грамматистов. [9]
При расшифровке языков возникает множество проблем, в том числе: [4] [6]