Транслитерация или транскрипция латинскими буквами
В лингвистике латинизация или латинизация — это преобразование текста из другой системы письма в латинское письмо или систему для этого. Методы латинизации включают транслитерацию для представления письменного текста и транскрипцию для представления устного слова, а также их комбинации. Методы транскрипции можно подразделить на фонематическую транскрипцию , при которой фиксируются фонемы или единицы смыслового значения в речи, и более строгую фонетическую транскрипцию , при которой с точностью фиксируются звуки речи.
Методы
Существует множество последовательных или стандартизированных систем латинизации. Их можно классифицировать по характеристикам. Характеристики конкретной системы могут сделать ее более подходящей для различных, иногда противоречивых приложений, включая поиск документов, лингвистический анализ, легкость чтения, точное представление произношения.
Исходный или донорский язык. Система может быть адаптирована для латинизации текста с определенного языка или серии языков или для любого языка в определенной системе письменности. Система, ориентированная на конкретный язык, обычно сохраняет языковые особенности, такие как произношение, тогда как общая система может лучше подходить для каталогизации международных текстов.
Целевой язык или язык получателя. Большинство систем предназначены для аудитории, которая говорит или читает на определенном языке. (Так называемые международные системы латинизации кириллического текста основаны на центральноевропейских алфавитах, таких как чешский и хорватский алфавит .)
Простота. Поскольку в базовом латинском алфавите меньше букв, чем во многих других системах письма, для представления их всех в латинице необходимо использовать орграфы , диакритические знаки или специальные символы. Это влияет на простоту создания, цифрового хранения и передачи, воспроизведения и чтения латинизированного текста.
Обратимость – можно ли восстановить оригинал из преобразованного текста. Некоторые обратимые системы допускают необратимую упрощенную версию.
Транслитерация
Если латинизация пытается транслитерировать исходный сценарий, руководящим принципом является взаимно однозначное отображение символов исходного языка в целевой сценарий с меньшим акцентом на то, как звучит результат при произнесении в соответствии с языком читателя. Например, латинизация японского языка Нихон-сики позволяет информированному читателю восстановить исходные японские слоги кана со 100% точностью, но требует дополнительных знаний для правильного произношения.
Транскрипция
фонематический
Большинство латинизаций предназначены для того, чтобы дать возможность обычному читателю, незнакомому с исходным письмом, достаточно точно произнести исходный язык. Такая латинизация следует принципу фонематической транскрипции и пытается максимально точно передать значимые звуки ( фонемы ) оригинала на целевом языке. Популярная романизация японского языка Хепберном является примером транскриптивной латинизации, предназначенной для носителей английского языка.
Для большинства языковых пар построение удобной латинизации предполагает компромисс между двумя крайностями. Чистая транскрипция, как правило, невозможна, поскольку исходный язык обычно содержит звуки и различия, которых нет в целевом языке, но которые необходимо показать, чтобы латинизированная форма была понятной. Более того, из-за диахронических и синхронических различий ни один письменный язык не представляет собой устный язык с идеальной точностью, а голосовая интерпретация сценария может в значительной степени различаться в зависимости от языка. В настоящее время цепочка транскрипции обычно состоит из разговорного иностранного языка, письменного иностранного языка, письменного родного языка, устного (чтения) родного языка. Уменьшение количества этих процессов, то есть удаление одного или обоих этапов письма, обычно приводит к более точной устной артикуляции. В целом, за пределами ограниченной аудитории ученых, латинизация имеет тенденцию больше склоняться к транскрипции. В качестве примера рассмотрим японское боевое искусство 柔術: латинизация Нихон-сики дзюзюту может позволить тому, кто знает японский язык, восстановить слоги канаじゅうじゅつ, но большинству носителей английского языка или, скорее, читателей будет легче угадать произношение. из версии Хепберн — дзюдзюцу .
Романизация конкретных систем письменности
арабский
Арабский алфавит используется для написания арабского , персидского , урду , пушту и синдхи , а также многих других языков мусульманского мира, особенно африканских и азиатских языков, не имеющих собственных алфавитов. Стандарты романизации включают следующее:
^ abc Хамза и айн не транслитерируются в начале слов.
^ abcd Точку ниже можно использовать вместо седилья.
^ В начале слов сочетание ⟨ خو ⟩ произносилось /xw/ или /xʷ/ на классическом персидском языке. В современных разновидностях скольжение / ʷ / утеряно, хотя написание не изменилось. Его до сих пор можно услышать на дари как реликтовое произношение. Комбинация /xʷa/ была изменена на /xo/ (см. ниже).
^ После ⟨ خ ⟩ из предыдущего /xʷa/ . Часто транслитерируется как xwa или xva . Например, خور /xor/ «солнце» в классическом персидском языке было /xʷar/ .
^ ab После гласных.
Армянский
грузинский
Примечания :
^ abcde Архаические буквы.
^ abcdefgh На них влияет вышеупомянутая раскладка, и их предпочитают избегать двусмысленности, поскольку выражения: t, j, g, ch могут означать две буквы.
^ Первоначально использование буквы y вместо ყ, скорее всего, связано с их сходством друг с другом.
Брамическая семья абугидас используется для языков Индийского субконтинента и Юго-Восточной Азии. На Западе существует давняя традиция изучать санскрит и другие индийские тексты в латинской транслитерации. Различные соглашения о транслитерации использовались для индийских сценариев со времен сэра Уильяма Джонса. [13]
ISO 15919 (2001 г.): Стандартное соглашение о транслитерации было закреплено в стандарте ISO 15919. Он использует диакритические знаки для сопоставления гораздо большего набора брахмических согласных и гласных с латинским письмом. Часть, специфичная для Деванагари, очень похожа на академический стандарт IAST : «Международный алфавит санскритской транслитерации» и на стандарт Библиотеки Конгресса США ALA-LC [14] , хотя есть несколько отличий.
Гарвард-Киото : используются прописные и строчные буквы, а также удвоение букв, чтобы избежать использования диакритических знаков и ограничить диапазон 7-битным ASCII.
ITRANS : схема транслитерации в 7-битный ASCII, созданная Авинашем Чопде и ранее широко распространенная в Usenet .
В Пакистане: стандартный (сааф или хаалис) урду — это «высокая» разновидность, тогда как хиндустани — это «низкая» разновидность, используемая массами (называемая урду, написанная шрифтом насталик ).
В Индии как стандартный (шудд) хинди, так и стандартный (сааф или хаалис) урду представляют собой разновидности «H» (написанные на деванагари и насталик соответственно), тогда как хиндустани - это разновидность «L», используемая массами и написанная либо на деванагари, либо на языке насталик. насталик (и называется «хинди» или «урду» соответственно).
Диграфия делает любую работу в любом сценарии в значительной степени недоступной для пользователей другого сценария, хотя в остальном хиндустани является совершенно взаимопонятным языком, что по сути означает, что любой вид сотрудничества на основе текста с открытым исходным кодом невозможен среди читателей деванагари и насталик.
Инициатива Хамари Боли [15] , инициированная в 2011 году, представляет собой полномасштабную инициативу языкового планирования с открытым исходным кодом , направленную на письменность, стиль, статус, лексическую реформу и модернизацию хиндустани. Одна из основных заявленных целей Хамари Боли - избавить хиндустани от разрушительной диграфии деванагари-насталик путем латинизации. [16]
Китайский
Романизация китайских языков , особенно мандаринского языка , оказалась очень сложной проблемой, хотя этот вопрос еще больше осложняется политическими соображениями. По этой причине многие таблицы латинизации содержат китайские символы плюс одну или несколько латинизаций или Zhuyin .
Мандарин
ALA-LC : раньше был похож на Уэйда-Джайлза [17] , но в 2000 году преобразован в Ханью Пиньинь [18]
Ханью Пиньинь (1958): В материковом Китае Ханью Пиньинь официально использовался для латинизации мандаринского языка на протяжении десятилетий, прежде всего как лингвистический инструмент для обучения стандартизированному языку. Система также используется в других китайскоязычных регионах, таких как Сингапур и некоторые районы Тайваня , и была принята большей частью международного сообщества в качестве стандарта для написания китайских слов и имен латиницей. Ценность Ханью Пиньинь в образовании в Китае заключается в том, что в Китае, как и в любой другой населенной территории с сопоставимой площадью и населением, существует множество различных диалектов , хотя существует только один общий письменный язык и одна общая стандартизированная разговорная форма. (Эти комментарии относятся к латинизации в целом)
Pe̍h-ōe-jī (POJ), когда-то де-факто официальный сценарий пресвитерианской церкви на Тайване (с конца 19 века). Технически это представляло собой в основном фонематическую систему транскрипции, поскольку Мин Нань обычно не писался на китайском языке.
Wāpuro : транслитерация («латинизация текстового процессора»). Не совсем система, а набор общих практик, позволяющих вводить японский текст.
Корейский
Хотя латинизация приняла различные и порой, казалось бы, неструктурированные формы, некоторые наборы правил все же существуют:
МакКьюн-Рейшауэр (MR; 1937?), первая транскрипция, получившая некоторое признание. Слегка измененная версия MR была официальной системой корейского языка в Южной Корее с 1984 по 2000 год, однако другая модификация по-прежнему остается официальной системой в Северной Корее . Использует короткие слова , апострофы и диересы , причем последние два указывают границы орфографических слогов в случаях, которые в противном случае были бы двусмысленными. То, что называется MR, во многих случаях может быть любой из множества систем, которые отличаются друг от друга и от исходного MR главным образом тем, отделяются ли окончания слов от основы пробелом, дефисом или – согласно системе МакКьюна и Райшауэра – нисколько; и если используется дефис или пробел, отражается ли изменение звука в последней согласной букве основы и первой согласной букве окончания (например, пур-и против пул-и ). Хотя эти отклонения в основном не имеют значения при транскрипции неизменяемых слов, эти отклонения настолько широко распространены, что любое упоминание о «латинизации МакКьюна-Рейшауэра» не обязательно относится к исходной системе, опубликованной в 1930-х годах.
Есть, например, система ALA-LC /Библиотеки Конгресса США, основанная на MR, но с некоторыми отклонениями. Деление слов рассмотрено подробно, с щедрым использованием пробелов для отделения окончаний слов от основ, чего нет в MR. Слоги имен всегда разделяются дефисом, чего MR явно никогда не делает. Изменения звука игнорируются чаще, чем в MR. Делает различие между ' и ' . [24]
Несколько проблем с MR привели к разработке новых систем:
Йельский университет (1942 г.): Эта система стала общепринятым стандартом латинизации корейского языка среди лингвистов . Длина гласного в старом или диалектном произношении обозначается макроном . В случаях, которые в противном случае были бы двусмысленными, границы орфографических слогов обозначаются точкой. Эта система также указывает согласные, которые исчезли из южнокорейской орфографии и стандартного произношения слова.
Пересмотренная романизация корейского языка (RR; 2000): включает правила как транскрипции, так и транслитерации. Южная Корея теперь официально использует эту систему, одобренную в 2000 году. Дорожные знаки и учебники должны были соответствовать этим правилам как можно скорее, а стоимость, по оценкам правительства, составила не менее 20 миллионов долларов США. Изменены все дорожные знаки, названия железных дорог и станций метро на схемах и указателях и т.д. В некоторых случаях это изменение было либо проигнорировано, либо унаследовано , в частности, латинизация названий и существующих компаний. RR в целом похож на MR, но не использует диакритических знаков и апострофов и использует отдельные буквы для ㅌ/ㄷ (t/d), ㅋ/ㄱ (k/g), ㅊ/ㅈ (ch/j) и ㅍ/ㅂ ( п/б). В случаях двусмысленности границы орфографических слогов предполагалось обозначать дефисом , но на практике это применяется непоследовательно.
ISO/TR 11941 (1996): Фактически это два разных стандарта под одним названием: один для Северной Кореи (КНДР), а другой для Южной Кореи (РК). Первоначальное представление в ИСО в значительной степени основывалось на Йельском университете и было совместными усилиями обоих штатов, но они не смогли прийти к согласию по окончательному проекту. [25]
Латинизация Лукова , разработанная в 1945–47 годах для его учебников по разговорному корейскому языку [26].
Язык Нуосу , на котором говорят на юге Китая, имеет собственную письменность — сценарий И. Единственная существующая система латинизации - YYPY (И Ю Пин Инь), которая представляет собой тон с буквами, прикрепленными к концу слогов, поскольку Нуосу запрещает коды. В нем не используются диакритические знаки, и поэтому из-за большого фонематического набора нуосу требуется частое использование диграфов, в том числе для монофтонговых гласных.
Система, основанная на научной транслитерации и ISO/R 9:1968, считалась официальной в Болгарии с 1970-х годов. С конца 1990-х годов болгарские власти перешли на так называемую упрощенную систему, избегающую использования диакритических знаков и оптимизированную для совместимости с английским языком. Эта система стала обязательной для публичного использования согласно закону, принятому в 2009 году. [29] Там, где в старой системе используются <č,š,ž,št,c,j,ă>, в новой системе используются <ch,sh,zh,sht. ,тс,у,а>.
Новая болгарская система была одобрена для официального использования также ООН в 2012 году, [30] и BGN и PCGN в 2013 году. [31]
киргизский
македонский
Русский
Единой общепринятой системы написания русского письма латиницей не существует — на самом деле таких систем огромное количество: некоторые адаптированы под тот или иной целевой язык (например, немецкий или французский), некоторые задуманы как транслитерация библиотекаря, некоторые предусмотрены для паспортов российских выезжающих; транскрипция некоторых имен чисто традиционна. Все это привело к значительному дублированию названий. Например, имя русского композитора Чайковского можно также написать как Чайковский , Чайковский , Чайковский , Чайковский , Чайковский , Чайковский , Чайковский , Чайковский , Чайковский , Чайковский , Чайковский , Чайковский, Чайковский , Чайковский , Чайковский . и т. д. Системы включают в себя :
BGN/PCGN (1947): система транслитерации (Совет США по географическим названиям и Постоянный комитет по географическим названиям для британского официального использования). [32]
ГОСТ 16876-71 (1971): ныне несуществующий советский стандарт транслитерации. Заменен ГОСТ 7.79, который является эквивалентом ISO 9 .
Кодировка «Волапук» (1990-е): жаргонный термин (на самом деле это не Волапюк ) для обозначения метода письма, который на самом деле не является транслитерацией, но используется для аналогичных целей (см. Статью).
Обычная английская транслитерация основана на BGN/PCGN, но не соответствует определенному стандарту. Подробно описано в романизации русского языка .
Оптимизированная система [34] [35] [36] [37] [38] для латинизации русского языка.
Сравнительная транслитерация русского языка [39] на разных языках (западноевропейский, арабский, грузинский, шрифт Брайля, Морзе)
сирийский
Латинская письменность для сирийского языка была разработана в 1930-х годах в соответствии с государственной политикой Советского Союза в отношении языков меньшинств , некоторые материалы были опубликованы. [40]
украинец
Украинская национальная система 2010 года была принята UNGEGN в 2012 году и BGN/PCGN в 2020 году. Она также очень близка к модифицированной (упрощенной) системе ALA-LC, которая остается неизменной с 1941 года.
Украинская национальная система и системы BGN/PCGN в Рабочей группе ООН по системам латинизации [43]
Сравнение пяти систем Томасом Т. Педерсеном [44]
Обзор и резюме
В таблице ниже показаны наиболее распространенные латинизации фонематической транскрипции, используемые для нескольких разных алфавитов. Хотя для многих обычных пользователей этого достаточно, для каждого алфавита используется несколько альтернатив и множество исключений. Для получения более подробной информации обратитесь к каждому из языковых разделов выше. (Иероглифы хангыля разбиты на компоненты джамо .)
^ "Deutsche Morgenländische Gesellschaft" . Dmg-web.de . Проверено 2 июля 2015 г.
^ «Стандарты, обучение, тестирование, оценка и сертификация». BSI-Global.com . Группа компаний БСИ . Проверено 25 апреля 2013 г.
^ «Арабский» (PDF) . Eki.ee. _ Проверено 2 июля 2015 г.
^ «Калам: Соглашение о морфологической арабско-латинско-арабской транслитерации». EServer.org . Архивировано из оригинала (TXT) 8 февраля 2009 г. Проверено 2 июля 2015 г.
^ "Арабская транслитерация Буквальтера" . Камус.орг . Проверено 25 апреля 2013 г.
^ Бисли, Кен (22 ноября 2010 г.). «Бакуолтерская транслитерация». Исследовательский центр Xerox в Европе . Архивировано из оригинала 24 апреля 2002 г. Проверено 25 апреля 2013 г.
^ «Руководство по бета-коду TLG®, 2004 г.» (PDF) . Тезаурус Linguae Graecae . Калифорнийский университет в Ирвайне . 23 июня 2004 г. Архивировано из оригинала (PDF) 29 января 2006 г.
^ Лефорт, Франсуа; Рубелакис-Ангелакис, Каллиопи А. «Схема транслитерации ISO 843». biology.uoc.gr . Университет Крита . Архивировано из оригинала 10 декабря 2004 года.
^ «Иврит» (PDF) . Eki.ee. _ Проверено 2 июля 2015 г.
^ Габриэль Прадипака. «Санскрит 3: сравнение систем транслитерации». Санскрит-Sanscrito.com.ar . Архивировано из оригинала 15 марта 2004 г. Проверено 25 апреля 2013 г.
^ «Что такое ХамариБоли?». ХамариБоли . 15 июня 2011 г. Архивировано из оригинала 1 июня 2013 г. Проверено 25 апреля 2013 г.
^ The News International - 29 декабря 2011 г. Архивировано 16 июня 2013 г. в Wayback Machine - «Хамари боли (наш язык), возможно, является одним из самых первых серьезных начинаний по исследованию, развитию и поощрению роста использования латинского алфавита. языка урду/хинди».
^ "Додаток до рішення № 9". www.hostmaster.net.ua . Архивировано из оригинала 7 марта 2005 года.
^ «Украинский» (PDF) . Eki.ee. _ Проверено 2 июля 2015 г.
^ «Украинский» (PDF) . Транслитерация.Eki.ee . Проверено 2 июля 2015 г.
Внешние ссылки
Викискладе есть медиафайлы, связанные с романизацией .
О латинизации
IPA для урду и римского урду для пользователей мобильных устройств и Интернета (загрузить). Архивировано 23 декабря 2008 г. на Wayback Machine.
Microsoft Transliteration Utility — инструмент для создания, отладки и использования модулей транслитерации из любого сценария в любой другой сценарий.
Рэндалл Барри (редактор) Таблицы романизации ALA-LC Библиотека Конгресса США, 1997, ISBN 0-8444-0940-5 . (Одна из немногих печатных книг со списками латинизации)
Таблицы латинизации Библиотеки Конгресса США в формате PDF
Рабочая группа UNGEGN по системам латинизации
Рекомендации по транслитерации Юникода
Романизация онлайн
Инструмент китайского фонетического преобразования — конвертирует пиньинь в другие форматы.
Кириллическая транслитерация и транскрипция ОНЛАЙН (Кириллица -> Латиница)
eiktub – блокнот для арабской транслитерации
Lingua::Translit – модуль Perl , охватывающий различные системы письма, например кириллицу или греческий язык. Предоставляет множество стандартов, а также общие схемы транслитерации.
Arabeasy – арабская транслитерация (существует бесплатное расширение для Chrome, также работает для персидского и урду)
Russianeasy. Архивировано 8 марта 2016 г. на Wayback Machine - русская транслитерация (существует бесплатное расширение для Chrome).