Межстрочный глянец

В лингвистике и педагогике подстрочный перевод — это подстрочный перевод (серия кратких пояснений, таких как определения или произношения), помещенный между строками, например, между строкой исходного текста и его переводом на другой язык . При подстрочном переводе каждая строка исходного текста приобретает одну или несколько соответствующих строк транскрипции, известных как подстрочный текст или подстрочный текст с подстрочной глоссой ( IGT ) — сокращенно подстрочный перевод. Такие подстрочные переводы помогают читателю проследить связь между исходным текстом и его переводом, а также структуру исходного языка. В своей простейшей форме подстрочный перевод — это буквальный, слово в слово перевод исходного текста .

История

Межстрочные глоссы использовались для различных целей в течение длительного периода времени. Одним из распространенных применений было аннотирование двуязычных учебников для языкового образования. Этот вид межстрочной интерпретации помогает сделать значение исходного текста явным, не пытаясь формально моделировать структурные характеристики исходного языка.

Такие аннотации иногда выражались не через межстрочную компоновку, а скорее через перечисление слов в объектном и метаязыке. Одним из таких примеров является аннотация Вильгельма фон Гумбольдта к классическому науатлю : ^[1]

ни-

ich

с-

маше

чихуэй

эс

-лия

шерсть

дер

нет-

мой

пилтзин

Сон

се

эйн

калли

Хаус

Этот «встроенный» стиль позволяет включать примеры в поток текста, а также записывать порядок слов целевого языка в порядке, который приближается к синтаксису целевого языка. (В глоссе здесь mache es переупорядочен из соответствующего исходного порядка, чтобы более естественно приблизиться к немецкому синтаксису.) Тем не менее, этот подход требует от читателей «переупорядочить» соответствия между исходными и целевыми формами.

Более современные подходы 19-го и 20-го веков взяли за основу вертикальную глоссацию, выравнивая тот же самый вид пословного содержания таким образом, что термины метаязыка располагались вертикально под терминами исходного языка. В этом стиле данный пример можно было бы передать так (здесь английская глоссация):

ни-

с-

это

чихуэй

делать

-лия

для

к-к

нет-

мой

пилтзин

сын

се

калли

дом

«Я построил своему сыну дом».

Здесь порядок слов определяется синтаксисом объектного языка.

Наконец, современные лингвисты переняли практику использования сокращенных грамматических категорийных меток. Публикация 2008 года, которая повторяет этот пример, маркирует его следующим образом: ^[2]

ни-к-чихуэй-ля

1SG . SUBJ - 3SG . OBJ -mach- APPL

ДЭТ

нет-пилтзин

1SG . POSS -Sohn

се

эйн

калли

Хаус

Этот подход более плотный и также требует усилий для чтения, но он в меньшей степени зависит от грамматической структуры метаязыка для выражения семантики целевых форм.

В вычислительной технике в блоке Specials Unicode предусмотрены специальные текстовые маркеры для обозначения начала и конца межстрочных толкований.

Структура

Хотя формальной спецификации формата IGT не существует, Лейпцигские правила глоссирования ^[3] представляют собой набор рекомендаций, направленных на максимальную стандартизацию формата.

Подстрочный текст по лингвистике обычно состоит из некоторых или всех из следующих элементов, обычно в следующем порядке сверху вниз:

Оригинальная орфография (обычно курсивом или полужирным курсивом ),
традиционная транслитерация на латинский алфавит,
фонетическая транскрипция ,
морфофонемная транслитерация ,
пословный или поморфемный перевод, где морфемы в слове разделяются дефисами или другими знаками препинания,

и наконец

вольный перевод, который может быть помещен в отдельный абзац или на соседнюю страницу, если структуры языков слишком различны для того, чтобы следовать тексту строка за строкой.

В качестве примера приведем следующее предложение на тайваньском языке Миньнань , транскрибированное пятью строками текста:

1. стандартная транслитерация pe̍h-ōe-jī ,

2. глянец с использованием номеров тонов для тонов поверхности,

3. глосса, показывающая основные тона в форме цитаты (до прохождения тонового сандхи ),

4. глоссарий морфем-за-морфемой на английском языке , и

5. английский перевод: ^[4]

(1.)

(2.)

(3.)

(4.)

гоа

гоа ¹

гоа ²

iáu-boē

иау ¹ -боэ ³

иау ² -боэ ⁷

еще нет

коат-тенг

коат ² -тенг ³

коат ⁴ -тенг ⁷

решать

тан-си

тан ⁷ -си ⁵

тан ¹ -си ⁵

когда

боэх

боэ ²

боэ ⁴

хотеть

тнг-кхи

тнг ¹ -хи ³ .

тнг ² -хи ³ .

возвращаться.

(5.) «Я еще не решил, когда вернусь».

Пословное выравнивание . Согласно правилам Лейпцигского глоссирования, принято выравнивать по левому краю слова в объектном языке с соответствующими словами в метаязыке; это выравнивание можно увидеть между строками (1-3) и строкой (4).

Соответствие морфема-за-морфемой . На уровне подслов сегментируемые морфемы разделяются дефисами, как в примере, так и в глоссе. В примере и в глоссе должно быть одинаковое количество дефисов, как показано в следующем примере:

Гила

сейчас

абур-ун

они- OBL - GEN

ферма

хамишалууг

навсегда

güǧüna

позади

амук'-да-ч

остаться- FUT - NEG

«Теперь их ферма не останется навсегда».

Метки грамматических категорий . В amuqʼ-da-č основа ( amuq ) переводится в соответствующую английскую лексему ( stay ), а флективные аффиксы ( da ) и ( č ) являются флективными аффиксами, представляющими будущее время и отрицание. Эти флективные аффиксы записываются как FUT и NEG ; список стандартных сокращений для грамматических категорий, которые широко используются в лингвистике, можно найти в Правилах глоссирования Лейпцига.

Соответствия один-ко-многим . Когда один элемент объектного языка соответствует нескольким элементам метаязыка, они разделяются точками. ^[3] Например,

Чик-мак

come.out- INF

'выйти'

Неявные элементы . Если морфемно-морфемный глосс (средняя строка) содержит элемент, который не соответствует явному элементу в примере, стандартная стратегия заключается во включении явного «ø» в текст на объектном языке ^[3] , который отделяется дефисом, как если бы явный элемент был:

пуэр-о

мальчик- НОМ

'мальчик'

Редупликация обрабатывается аналогично аффиксации, но с тильдой (вместо стандартного дефиса), которая соединяет копируемый элемент с основой: ^[3]

би~били

IPFV ~купить

«покупает»

Пунктуация

В межстрочных морфологических глоссах различные формы пунктуации разделяют глоссарии. Обычно слова выравниваются по своим глоссариям; внутри слов дефис используется, когда граница отмечается как в тексте, так и в его глоссарии, точка, когда граница появляется только в одном. То есть должно быть одинаковое количество слов, разделенных пробелами в тексте и его глоссарии, а также одинаковое количество дефисных морфем в слове и его глоссарии. Это базовая система, и ее можно применять универсально. Например:

Одадан Хызлы Чиктым.

ода-дан

комната- ABL

комната-из

Хыз-ли

скорость- COM

скорость-с

чык-ты-м

go.out- PFV - 1sg

go_out-perfective-I

турецкий

«Я быстро вышел из комнаты».

Подчеркивание может использоваться вместо точки, как в go_out- PFV , когда одно слово в исходном языке соответствует фразе в языке глоссирования, хотя точка все равно будет использоваться в других ситуациях, например, в греческом oikíais house. FEM.PL.DAT 'в дома'.

Однако иногда могут быть сделаны более тонкие различия. Например, клитики могут быть разделены двойным дефисом (или, для удобства набора, знаком равенства) вместо дефиса. Французский пример:

Я люблю тебя.

je⹀te⹀aime

Я⹀тебя⹀люблю

(Французский)

'Я тебя люблю.'

Аффиксы, вызывающие разрывы ( инфиксы , циркумфиксы , трансфиксы и т. д.), могут быть выделены угловыми скобками, а редупликация — тильдами, а не дефисами:

сулат, сусулат, сумулат, сумусулат (глагольные склонение) (тагальский)

сулат

писать

су~сулат

созерцательное настроение~написать

s ⟨um⟩ улат

⟨ триггер агента .прошлое⟩ запись

s ⟨um⟩ у~сулат

⟨триггер агента⟩ созерцательный~писать

( Другие примеры см. в разделе «Аффикс ».)

Морфемы, которые нелегко разделить, например, умляут , можно обозначить обратной косой чертой вместо точки:

unser-n

наш- DAT . PL

Вэтер-н

отец\ PL - DAT . PL

(Немецкий)

«нашим отцам» (единственное число от Väter «отцы» — Vater )

Несколько других условностей, которые иногда встречаются, проиллюстрированы в Лейпцигских правилах глоссирования. ^[3]

Межстрочные ресурсы глоссария

Были предприняты усилия по оцифровке IGT для сотен языков мира. ^[5]

Онлайн-база данных подстрочного текста

Онлайновая база данных подстрочных текстов (ODIN) — это база данных, содержащая более 200 000 примеров подстрочных толкований для более чем 1500 языков, извлеченных из научных лингвистических исследований. ^[6] База данных была создана в два этапа: автоматическое создание с последующей ручной коррекцией. Сам этап автоматического создания был завершен в три этапа:

Во-первых, поисковые системы (например, Google, Bing) были запрошены для извлечения научных документов, которые, вероятно, содержали межстрочные толкования. Запросы включали термины, имеющие отношение к лингвистическим исследованиям, такие как грамматические морфемы (например, «NOM», сокращение от именительного падежа; «3SG», сокращение от третьего лица единственного числа).
Во-вторых, каждая строка в извлеченном документе была помечена на предмет принадлежности к подстрочному глоссарию или нет с использованием методов маркировки последовательностей из машинного обучения.
В-третьих, каждому экземпляру межстрочного глосса было присвоено название языка (например, тагальский) и идентификатор языка ISO 693-3. Названия языков и идентификаторы автоматически присваивались межстрочным глоссам с использованием моделей Coreference Resolution из Natural Language Processing, где экземпляр межстрочного глосса был помечен названием языка (и идентификатором), которое появляется в научном документе, из которого был извлечен экземпляр межстрочного глосса. ^[6]

На этапе ручной коррекции создатели базы данных вручную исправили границы межстрочных глосс, обнаруженных методом маркировки последовательностей на этапе 2 этапа автоматического построения. Затем создатели проверили названия языков и коды языков во втором и третьем проходе по данным соответственно.

Автоматическая обработка экземпляров межстрочного глянца

Разработаны модели обработки естественного языка, использующие ресурсы межстрочного глоссария, такие как Онлайновая база данных межстрочного текста. ^[7]^[8]

Автоматическое глянцевание

Например, были разработаны системы обработки естественного языка для автоматического создания межстрочных толкований.: ^[7]

ми-с

вы- GEN

хумукули

верблюд

элю-аб-ок'ек'-аси

мы. OBL - ERG . 1 . PL -steal- PRT

ану

быть. ОТРИЦАТЕЛЬНЫЙ

«Мы не крали твоего верблюда».

Учитывая сегментированную морфемную строку (первая строка выше) и строку свободного перевода (третья строка выше), задача состоит в том, чтобы создать среднюю глоссированную строку, содержащую переводы основ (например, mi : you ) и метки грамматических категорий, соответствующие аффиксам (например, a : ERG.1.PL ). Для выполнения этой задачи использовались модели прогнозирования последовательности из Natural Language Processing. ^[7] Два фактора способствуют сложности этой задачи:

Перевод не обязательно соответствует сегментированной морфемной строке (например, camel — последнее слово в переводе, но второе слово в сегментированной морфемной строке).
Некоторые слова в сегментированной по морфемам строке имеют несколько соответствий в глоссе (например, anu : be.NEG ).

Автоматическое обнаружение морфологической структуры из глосс

Исследователи использовали межстрочные глоссы для получения морфологических парадигм объектного языка (т. е. языка, который глоссуется). Для автоматического создания морфологических парадигм из межстрочных глоссов исследователи создали таблицы для каждой основы в глоссе и (возможно, пустую) ячейку для каждой грамматической категории (например, ERG) в глоссе. Например, учитывая предложение с глоссом ниже: ^[7]

Вечер-ом

вечер- INS

да

1. SG . НОМ

побежа-ла

запуск- PFV . PST . SG . FEM

журнал

магазин. АСС

«Вечером я побежала в магазин».

Будет парадигма для ствола pobeja со слотами для PFV.PST.SG.FEM и PFV.PST.SG.MASC :

Слот для PFV.PST.SG.FEM будет заполнен (так как он наблюдался в данных межстрочного глосса), но слот для PFV.PST.SG.MASC будет пустым (предполагая, что никакой другой экземпляр межстрочного глосса не содержит pobeja, склоняемого для грамматической категории PFV.PST.SG.MASC ). Статистическая модель машинного обучения для морфологического склонения может быть использована для заполнения отсутствующих записей. ^[8]^[9]^[10]^[11]^[12]

Смотрите также

Канбун – японская традиция толкования классических китайских текстов
Рубиновый текст – глосса, иногда используемая в китайском или японском языке для обозначения произношения.
Разметка частей речи , часто отображаемая в виде межстрочных толкований под размеченными словами, иногда одновременно с межстрочным пословным переводом
Древовидные банки , часто отображаемые как примечания или аннотации к исходному тексту.
Джеймс Гамильтон , композитор девятнадцатого века и пропагандист подстрочных текстов для изучения языка
Метафраза

Ссылки

^ Леманн, Кристиан (23 января 2004 г.). «Инструкции по подстрочному морфемному переводу». В Герте Буидже; Кристиан Леманн; Иоахим Мугдан; Ставрос Скопетеас (ред.). Морфология. Ein Internationales Handbuch zur Flexion und Wortbildung . Handbücher der Sprach- und Kommunikationswissenschaft. Том. 2. Берлин: В. де Грюйтер. стр. 1834–1857.
^ Хаспельмат, Мартин (2008). Типология языка и универсалии языка: международный справочник . Вальтер де Грюйтер. С. 715. ISBN 978-3-11-011423-2.
^ abcde Bickel, Balthasar; Bernard Comrie; Martin Haspelmath (февраль 2008 г.). «Правила глоссирования в Лейпциге. Соглашения о межстрочных морфемных глоссах». Кафедра лингвистики – Ресурсы – Правила глоссирования . Получено 30.06.2010 г.
↑ Пример из книги «Базовый словарь тайваньского языка для начинающих» Ко Чек Хоана и Тан Пан Тина.
^ Джорджи, Райан (2016). От аари до зулу: массовое многоязычное создание языковых инструментов с использованием межстрочного глоссированного текста (PhD). Вашингтонский университет.
^ ab Xia, Fei; Lewis, William; Wayne, Michael; Slayden, Glenn; Georgi, Ryan; Crowgey, Joshua; Bender, Emily (2016). «Обогащение массивной многоязычной базы данных подстрочных глоссированных текстов». Language Resources and Evaluation . 50 (2): 321–349. doi :10.1007/s10579-015-9325-4. S2CID 2674996. Получено 15.12.2021 .
^ abcd Синюань, Чжао; Сатору, Одзаки; Анастасопулос, Антониос; Нойбиг, Грэм; Левин, Лори (2020). «Автоматическое межстрочное глоссирование для языков с ограниченными ресурсами с использованием переводов». COLING . Труды 28-й Международной конференции по компьютерной лингвистике: 5397–5408. doi : 10.18653/v1/2020.coling-main.471 . S2CID 227231816. Получено 15.12.2021 .
^ ab Мёллер, Сара; Лю, Лин; Ян, Чанбинг; Канн, Катарина; Халден, Манс (2020). «IG2P: от межстрочных глоссированных текстов к парадигмам». EMNLP . Труды конференции 2020 года по эмпирическим методам обработки естественного языка (EMNLP): 5251–5262. doi : 10.18653/v1/2020.emnlp-main.424 . S2CID 226262296. Получено 15 декабря 2021 г.
^ Сильфверберг, Миикка; Хулден, Манс (2018). «Подход кодировщика-декодера к проблеме заполнения ячеек парадигмы». Труды конференции 2018 года по эмпирическим методам обработки естественного языка . Брюссель, Бельгия: Ассоциация компьютерной лингвистики. стр. 2883–2889. doi : 10.18653/v1/D18-1315 . S2CID 53082616.
^ Wu, Shijie; Cotterell, Ryan; Hulden, Mans (2021). «Применение трансформатора к трансдукции на уровне символов». Труды 16-й конференции Европейского отделения Ассоциации компьютерной лингвистики: Основной том . Онлайн: Ассоциация компьютерной лингвистики. стр. 1901–1907. arXiv : 2005.10213 . doi : 10.18653/v1/2021.eacl-main.163 . S2CID 218718982.
^ Nicolai, Garrett; Cherry, Colin; Kondrak, Grzegorz (2015). «Inflection Generation as Discriminative String Transduction». Труды конференции 2015 года Североамериканского отделения Ассоциации компьютерной лингвистики: Технологии человеческого языка . Денвер, Колорадо: Ассоциация компьютерной лингвистики. стр. 922–931. doi : 10.3115/v1/N15-1093 . S2CID 14929030.
^ Бхаргава, Адитья; Кондрак, Гжегож (2012). «Использование дополнительных представлений для последовательной трансдукции». Труды конференции 2012 года Североамериканского отделения Ассоциации компьютерной лингвистики: Технологии человеческого языка . Монреаль, Канада: Ассоциация компьютерной лингвистики: 396–406.

Внешние ссылки

Правила глоссирования в Лейпциге: соглашения для межстрочных глосс по морфемам
Стандарты подстрочного глянцевого текста (E-MELD)
Уровни межстрочного глянца (E-MELD)
На пути к общей модели подстрочного текста (E-MELD)
Межстрочные морфемные глоссы
Толкование древних языков и текстов. Форум для рекомендаций по межстрочному морфемному толкованию древних языков, засвидетельствованному в древних рукописях.
Онлайн-интерлиния библейских греческих писаний (Новый Завет) текст
ODIN — Онлайн-база данных подстрочного текста
Страница метода межстрочного перевода Latinum. Список старых межстрочных и толкованных текстов, в основном с латыни или древнегреческого и в основном на английский язык.
Эрнест Блум, «Новый старый способ изучения языков», The American Scholar , осень 2008 г.