Транслитерация или транскрипция латинскими буквами
В лингвистике романизация — это преобразование текста из другой системы письма в римский (латинский) алфавит или систему для этого. Методы романизации включают транслитерацию для представления письменного текста и транскрипцию для представления устного слова, а также их комбинации. Методы транскрипции можно подразделить на фонематическую транскрипцию , которая записывает фонемы или единицы семантического значения в речи, и более строгую фонетическую транскрипцию , которая записывает звуки речи с точностью.
Методы
Существует множество последовательных или стандартизированных систем романизации. Их можно классифицировать по их характеристикам. Характеристики конкретной системы могут сделать ее более подходящей для различных, иногда противоречивых приложений, включая поиск документов, лингвистический анализ, легкость чтения, точное представление произношения.
Исходный или донорский язык – Система может быть адаптирована для романизации текста с определенного языка или ряда языков, или для любого языка в определенной системе письма. Система, ориентированная на определенный язык, обычно сохраняет такие особенности языка, как произношение, в то время как общая система может быть лучше для каталогизации международных текстов.
Целевой или принимающий язык – большинство систем предназначены для аудитории, говорящей или читающей на определенном языке. (Так называемые международные системы латинизации для кириллического текста основаны на центральноевропейских алфавитах, таких как чешский и хорватский алфавит .)
Простота – Поскольку базовый латинский алфавит имеет меньшее количество букв, чем многие другие системы письма, для их представления в латинском алфавите необходимо использовать диграфы , диакритические знаки или специальные символы. Это влияет на простоту создания, цифрового хранения и передачи, воспроизведения и чтения романизированного текста.
Обратимость – Можно ли восстановить оригинал из преобразованного текста. Некоторые обратимые системы допускают необратимую упрощенную версию.
Транслитерация
Если романизация пытается транслитерировать исходный сценарий, руководящим принципом является однозначное сопоставление символов исходного языка с целевым сценарием, с меньшим акцентом на том, как результат звучит при произношении в соответствии с языком читателя. Например, романизация японского языка Нихон-сики позволяет информированному читателю восстановить исходные японские слоги каны со 100% точностью, но требует дополнительных знаний для правильного произношения.
Транскрипция
Фонематич.
Большинство романизаций предназначены для того, чтобы позволить случайному читателю, незнакомому с оригинальным письмом, произносить исходный язык достаточно точно. Такие романизации следуют принципу фонематической транскрипции и пытаются передать значимые звуки ( фонемы ) оригинала как можно точнее на целевом языке. Популярная романизация Хепберна японского языка является примером транскрипционной романизации, разработанной для носителей английского языка.
Фонетический
Фонетическая конверсия идет на шаг дальше и пытается изобразить все фоны исходного языка, при необходимости жертвуя разборчивостью, используя символы или соглашения, не встречающиеся в целевом сценарии. На практике такое представление почти никогда не пытается представить все возможные аллофоны — особенно те, которые встречаются естественным образом из-за эффектов коартикуляции — и вместо этого ограничивается наиболее значительными аллофоническими различиями. Международный фонетический алфавит является наиболее распространенной системой фонетической транскрипции.
Торговля
Для большинства языковых пар создание пригодной для использования романизации подразумевает торговлю между двумя крайностями. Чистые транскрипции, как правило, невозможны, поскольку исходный язык обычно содержит звуки и различия, не встречающиеся в целевом языке, но которые должны быть показаны для того, чтобы романизированная форма была понятной. Кроме того, из-за диахронической и синхронической дисперсии ни один письменный язык не представляет ни один разговорный язык с идеальной точностью, а голосовая интерпретация сценария может в значительной степени различаться в разных языках. В наше время цепочка транскрипции обычно выглядит следующим образом: разговорный иностранный язык, письменный иностранный язык, письменный родной язык, разговорный (читаемый) родной язык. Уменьшение количества этих процессов, т. е. удаление одного или обоих этапов письма, обычно приводит к более точным устным артикуляциям. В целом, за пределами ограниченной аудитории ученых, романизации, как правило, больше склоняются к транскрипции. В качестве примера рассмотрим японское боевое искусство 柔術: романизация Нихон-сики zyûzyutu может позволить тому, кто знает японский язык, восстановить слоги каныじゅうじゅつ, но большинству носителей английского языка, или, скорее, читателей, будет легче угадать произношение по версии Хепберн, jūjutsu .
Романизация отдельных систем письма
арабский
Арабский алфавит используется для записи арабского , персидского , урду , пушту и синдхи , а также множества других языков в мусульманском мире, в частности африканских и азиатских языков, не имеющих собственных алфавитов. Стандарты романизации включают в себя следующее:
^ abc Хамза и айн не транслитерируются в начале слов.
^ abcd Точку ниже можно использовать вместо седиля.
^ В начале слов сочетание ⟨ خو ⟩ произносилось как /xw/ или /xʷ/ в классическом персидском языке. В современных вариантах глайд /ʷ/ утрачен, хотя написание не изменилось. Его все еще можно услышать в дари как реликтовое произношение. Сочетание /xʷa/ было изменено на /xo/ (см. ниже).
^ После ⟨ خ ⟩ от более раннего /xʷa/ . Часто транслитерируется как xwa или xva . Например, خور /xor/ "солнце" было /xʷar/ в классическом персидском языке.
^ ab После гласных.
армянский
грузинский
Примечания :
^ abcde Архаичные буквы.
^ abcdefgh Они созданы на основе вышеупомянутой компоновки и предпочтительны для избежания двусмысленности, поскольку выражения: t, j, g, ch могут означать две буквы.
^ Первоначальное использование буквы y для ყ, скорее всего, было обусловлено их сходством друг с другом.
Брахмическая семья абугидас используется для языков индийского субконтинента и юго-восточной Азии. На западе существует давняя традиция изучать санскрит и другие индийские тексты в латинской транслитерации. Различные соглашения о транслитерации использовались для индийских письменностей со времен сэра Уильяма Джонса. [13 ]
ISO 15919 (2001): Стандартное соглашение о транслитерации было кодифицировано в стандарте ISO 15919. Он использует диакритические знаки для сопоставления гораздо большего набора брахмических согласных и гласных с латинским алфавитом. Часть, специфичная для деванагари, очень похожа на академический стандарт IAST : "Международный алфавит санскритской транслитерации", и на стандарт Библиотеки Конгресса США ALA-LC , [14] хотя есть несколько отличий
Гарвард-Киото : использует заглавные и строчные буквы, а также удвоение букв, чтобы избежать использования диакритических знаков и ограничить диапазон 7-битным ASCII.
ITRANS : схема транслитерации в 7-битный ASCII, созданная Авинашем Чопде, которая ранее была распространена в Usenet .
В Пакистане: стандартный (сааф или хали) урду — «высокий» вариант, тогда как хиндустани — «низкий» вариант, используемый массами (называемый урду, записанный шрифтом насталик ).
В Индии и стандартный (шуддх) хинди, и стандартный (сааф или хали) урду являются вариантами «H» (пишутся соответственно на деванагари и насталик), тогда как хиндустани является вариантом «L», используемым массами и записываемым либо на деванагари, либо насталик (и называемым «хинди» или «урду» соответственно).
Диграфия делает любую работу, написанную на одной из этих систем письма, в значительной степени недоступной для пользователей другой системы письма, хотя в остальном хиндустани является совершенно взаимопонятным языком, что по сути означает, что любое сотрудничество в области текстов с открытым исходным кодом невозможно между читателями деванагари и насталик.
Инициатива Hamari Boli [15] , начатая в 2011 году, является полномасштабной инициативой по планированию языка с открытым исходным кодом , направленной на реформу и модернизацию письменности, стиля, статуса и лексики хиндустани. Одной из основных заявленных целей Hamari Boli является освобождение хиндустани от парализующей диграфии деванагари–насталик путем романизации. [16]
китайский
Романизация синитских языков , в частности мандаринского , оказалась очень сложной проблемой, хотя вопрос еще больше усложняется политическими соображениями. Из-за этого многие таблицы романизации содержат китайские иероглифы плюс одну или несколько романизаций или чжуинь .
Мандарин
ALA-LC : раньше был похож на Wade–Giles, [17], но был преобразован в Hanyu Pinyin в 2000 году [18]
Hanyu Pinyin (1958): В материковом Китае Hanyu Pinyin официально использовался для латинизации мандаринского языка в течение десятилетий, в первую очередь как лингвистический инструмент для обучения стандартизированному языку. Система также используется в других китайскоязычных регионах, таких как Сингапур и части Тайваня , и была принята большей частью международного сообщества в качестве стандарта для написания китайских слов и имен латиницей. Ценность Hanyu Pinyin в образовании в Китае заключается в том, что Китай, как и любая другая населенная территория с сопоставимой площадью и населением, имеет множество различных диалектов , хотя существует только один общий письменный язык и одна общая стандартизированная устная форма. (Эти комментарии относятся к латинизации в целом)
Pe̍h-ōe-jī (POJ), когда-то фактически официальная письменность пресвитерианской церкви на Тайване (с конца 19 века). Технически это представляло собой в основном фонематическую систему транскрипции, поскольку миньнань не был широко распространенным письмом в китайском языке.
Wāpuro : («романизирование текстового процессора») транслитерация. Строго говоря, это не система, а набор общепринятых практик, позволяющий вводить японский текст.
корейский
Хотя латинизация принимала различные и порой, казалось бы, неструктурированные формы, некоторые наборы правил все же существуют:
McCune–Reischauer (MR; 1937?), первая транскрипция, получившая некоторое признание. Слегка измененная версия MR была официальной системой для корейского языка в Южной Корее с 1984 по 2000 год, и все же другая модификация все еще является официальной системой в Северной Корее . Использует бревесы , апострофы и диересы , последние две указывают орфографические границы слогов в случаях, которые в противном случае были бы неоднозначными. То, что называется MR, во многих случаях может быть любой из ряда систем, которые отличаются друг от друга и от оригинальной MR в основном тем, отделены ли окончания слов от основы пробелом, дефисом или — согласно системе McCune и Reischauer — вообще не отделены; и если используется дефис или пробел, отражается ли изменение звука в последней согласной букве основы и первой согласной букве окончания (например, pur-i против pul-i ). Хотя эти отклонения в основном не имеют значения при транскрипции неизменяемых слов, они настолько распространены, что любое упоминание о «романизации МакКьюна-Райшауэра» не обязательно относится к оригинальной системе, опубликованной в 1930-х годах.
Например, существует система ALA-LC / Библиотеки Конгресса США, основанная на MR, но с некоторыми отклонениями. Подробно рассматривается деление слов, с щедрым использованием пробелов для отделения окончаний слов от основ, чего не наблюдается в MR. Слоги имен всегда разделяются дефисом, чего явно никогда не делается в MR. Звуковые изменения игнорируются чаще, чем в MR. Различает ' и ' . [24]
Несколько проблем с МР привели к разработке новых систем:
Пересмотренная романизация корейского языка (RR; 2000): включает правила как для транскрипции, так и для транслитерации. Южная Корея теперь официально использует эту систему, которая была одобрена в 2000 году. Дорожные знаки и учебники должны были следовать этим правилам как можно скорее, что, по оценкам правительства, обошлось в сумму не менее 20 миллионов долларов США. Все дорожные знаки, названия железнодорожных и метрополитенских станций на картах линий и знаках и т. д. были изменены. В некоторых случаях это изменение было либо проигнорировано, либо отложено , особенно это касается романизации имен и существующих компаний. RR в целом похож на MR, но не использует диакритические знаки или апострофы и использует отдельные буквы для ㅌ/ㄷ (t/d), ㅋ/ㄱ (k/g), ㅊ/ㅈ (ch/j) и ㅍ/ㅂ (p/b). В случаях неоднозначности предполагалось обозначать орфографические границы слогов дефисом , однако на практике это применяется непоследовательно.
ISO/TR 11941 (1996): Это на самом деле два разных стандарта под одним названием: один для Северной Кореи (КНДР) и другой для Южной Кореи (РК). Первоначальная подача в ISO была в значительной степени основана на Йельском университете и была совместным усилием обоих государств, но они не смогли договориться об окончательном проекте. [25]
Романизация Лукоффа , разработанная в 1945–47 годах для его учебников разговорного корейского языка [26]
Язык нуосу , на котором говорят в Южном Китае, использует собственную письменность — письмо и . Единственная существующая система романизации — YYPY (Yi Yu Pin Yin), которая представляет тон буквами, прикрепленными к концу слога, поскольку в языке нуосу запрещены коды. В нем не используются диакритические знаки, и, как следствие, из-за большого фонемного инвентаря языка нуосу, он требует частого использования диграфов, в том числе для монофтонговых гласных.
Система, основанная на научной транслитерации и ISO/R 9:1968, считалась официальной в Болгарии с 1970-х годов. С конца 1990-х годов болгарские власти перешли на так называемую Streamlined System, избегая использования диакритических знаков и оптимизируя совместимость с английским языком. Эта система стала обязательной для публичного использования с законом, принятым в 2009 году. [29] Там, где старая система использовала <č,š,ž,št,c,j,ă>, новая система использует <ch,sh,zh,sht,ts,y,a>.
Новая болгарская система была одобрена для официального использования также ООН в 2012 году [30] , а также BGN и PCGN в 2013 году [31].
кыргызский
македонский
Русский
Не существует единой общепринятой системы написания русского языка с использованием латинского алфавита — на самом деле существует огромное количество таких систем: некоторые из них адаптированы для конкретного целевого языка (например, немецкого или французского), некоторые предназначены для транслитерации библиотекаря, некоторые предписаны для паспортов российских путешественников; транскрипция некоторых имен является чисто традиционной. Все это привело к большому удвоению имен. Например, имя русского композитора Чайковского может также быть написано как Tchaykovsky , Tchajkovskij , Tchaikowski , Tschaikowski , Czajkowski , Čajkovskij , Čajkovski , Chajkovskij , Çaykovski , Chaykovsky , Chaykovskiy , Chaikovski , Tshaikovski , Tšaikovski , Tsjajkovskij и т . д. Системы включают в себя :
BGN/PCGN (1947): Система транслитерации (Совет США по географическим названиям и Постоянный комитет по географическим названиям для официального использования в Великобритании). [32]
ГОСТ 16876-71 (1971): Ныне недействующий советский стандарт транслитерации. Заменен ГОСТ 7.79, который является эквивалентом ISO 9 .
Кодировка «Волапюк» (1990-е гг.): сленговый термин (на самом деле это не волапюк ) для метода письма, который на самом деле не является транслитерацией, но используется для схожих целей (см. статью).
Традиционная английская транслитерация основана на BGN/PCGN, но не следует определенному стандарту. Подробно описано в Romanization of Russian .
Упрощенная система [34] [35] [36] [37] [38] для латинизации русского языка.
Сравнительная транслитерация русского языка [39] на разных языках (западноевропейский, арабский, грузинский, Брайль, Морзе)
сирийский
Латинская письменность для сирийского языка была разработана в 1930-х годах в соответствии с государственной политикой в отношении языков меньшинств Советского Союза , некоторые материалы были опубликованы. [40]
украинский
Украинская национальная система 2010 года была принята UNGEGN в 2012 году и BGN/PCGN в 2020 году. Она также очень близка к модифицированной (упрощенной) системе ALA-LC, которая оставалась неизменной с 1941 года.
Украинская национальная и BGN/PCGN системы, в Рабочей группе ООН по системам романизации [43]
Сравнение пяти систем Томаса Т. Педерсена [44]
Обзор и резюме
В таблице ниже показана наиболее распространенная фонемная транскрипция романизации, используемая для нескольких различных алфавитов. Хотя для многих случайных пользователей этого достаточно, для каждого алфавита используется несколько альтернатив и много исключений. Для получения подробной информации см. каждый из языковых разделов выше. (Символы хангыль разбиты на компоненты джамо .)
^ "The TLG® Beta Code Manual 2004" (PDF) . Thesaurus Linguae Graecae . Калифорнийский университет в Ирвайне . 23 июня 2004 г. Архивировано из оригинала (PDF) 29 января 2006 г.
^ Лефорт, Франсуа; Рубелакис-Ангелакис, Каллиопи А. "Схема транслитерации ISO 843". biology.uoc.gr . Университет Крита . Архивировано из оригинала 10 декабря 2004 г.
^ "Что такое HamariBoli?". HamariBoli . 2011-06-15. Архивировано из оригинала 2013-06-01 . Получено 2013-04-25 .
↑ The News International — 29 декабря 2011 г. Архивировано 16 июня 2013 г. на Wayback Machine — «Хамари боли (наш язык), возможно, одно из первых серьезных начинаний по исследованию, развитию и поощрению роста латинского письма в использовании языка урду/хинди».
На Викискладе есть медиафайлы по теме романизация .
О латинизации
IPA для урду и римского урду для мобильных и интернет-пользователей (скачать) Архивировано 23.12.2008 на Wayback Machine
Microsoft Transliteration Utility – инструмент для создания, отладки и использования модулей транслитерации из любого алфавита в любой другой алфавит.
Рэндалл Барри (ред.) Таблицы романизации ALA-LC Библиотека Конгресса США, 1997, ISBN 0-8444-0940-5 . (Одна из немногих печатных книг со списками романизаций)
Таблицы романизации Библиотеки Конгресса США в формате PDF
Рабочая группа ООН по системам романизации
Руководство по транслитерации Unicode. Архивировано 28.03.2009 на Wayback Machine.
Романизация онлайн
Инструмент для преобразования китайской фонетики – конвертирует между пиньинь и другими форматами
Кириллическая транслитерация и транскрипция ОНЛАЙН (кириллица -> латиница)
eiktub Архивировано 25.10.2019 в Wayback Machine – Арабский транслитерационный планшет
Lingua::Translit – Модуль Perl , охватывающий различные системы письма, например, кириллицу или греческий. Предоставляет множество стандартов, а также общие схемы транслитерации.
Arabeasy – арабская транслитерация (существует бесплатное расширение Chrome, работает также для персидского языка и урду)
Russianeasy Архивировано 2016-03-08 в Wayback Machine – Русская транслитерация (существует бесплатное расширение Chrome)