stringtranslate.com

Межстрочный глянец

В лингвистике и педагогике подстрочный перевод — это подстрочный перевод (серия кратких пояснений, таких как определения или произношения), помещенный между строками, например, между строкой исходного текста и его переводом на другой язык . При подстрочном переводе каждая строка исходного текста приобретает одну или несколько соответствующих строк транскрипции, известных как подстрочный текст или подстрочный текст с подстрочной глоссой ( IGT ) — сокращенно подстрочный перевод. Такие подстрочные переводы помогают читателю проследить связь между исходным текстом и его переводом, а также структуру исходного языка. В своей простейшей форме подстрочный перевод — это буквальный, слово в слово перевод исходного текста .

История

Подстрочный текст в учебнике испанского языка для немецкоговорящих Toussaint–Langenscheidt Spanisch , 1910 г.

Межстрочные глоссы использовались для различных целей в течение длительного периода времени. Одним из распространенных применений было аннотирование двуязычных учебников для языкового образования. Этот вид межстрочной интерпретации помогает сделать значение исходного текста явным, не пытаясь формально моделировать структурные характеристики исходного языка.

Такие аннотации иногда выражались не через межстрочную компоновку, а скорее через перечисление слов в объектном и метаязыке. Одним из таких примеров является аннотация Вильгельма фон Гумбольдта к классическому науатлю : [1]

1

ни-

1

ich

2

с-

3

маше

3

чихуэй

2

эс

4

-лия

4

шерсть

5

в

5

дер

6

нет-

6

мой

7

пилтзин

7

Сон

8

се

8

эйн

9

калли

9

Хаус

1 2 3 4 5 6 7 8 9

ni- c- chihui -lia in no- piltzin ce calli

1 3 2 4 5 6 7 8 9

Ich mache es für der mein Sohn ein Haus

Этот «встроенный» стиль позволяет включать примеры в поток текста, а также записывать порядок слов целевого языка в порядке, который приближается к синтаксису целевого языка. (В глоссе здесь mache es переупорядочен из соответствующего исходного порядка, чтобы более естественно приблизиться к немецкому синтаксису.) Тем не менее, этот подход требует от читателей «переупорядочить» соответствия между исходными и целевыми формами.

Более современные подходы 19-го и 20-го веков взяли за основу вертикальную глоссацию, выравнивая тот же самый вид пословного содержания таким образом, что термины метаязыка располагались вертикально под терминами исходного языка. В этом стиле данный пример можно было бы передать так (здесь английская глоссация):

ни-

я

с-

это

чихуэй

делать

-лия

для

в

к-к

нет-

мой

пилтзин

сын

се

а

калли

дом

ni- c- chihui -lia in no- piltzin ce calli

Я сделаю для своего сына дом.

«Я построил своему сыну дом».

Здесь порядок слов определяется синтаксисом объектного языка.

Наконец, современные лингвисты переняли практику использования сокращенных грамматических категорийных меток. Публикация 2008 года, которая повторяет этот пример, маркирует его следующим образом: [2]

ни-к-чихуэй-ля

1SG . SUBJ - 3SG . OBJ -mach- APPL

в

ДЭТ

нет-пилтзин

1SG . POSS -Sohn

се

эйн

калли

Хаус

ni-c-chihui-lia в no-piltzin ce calli

1SG.SUBJ-3SG.OBJ-mach-APPL DET 1SG.POSS-Sohn ein Haus

Этот подход более плотный и также требует усилий для чтения, но он в меньшей степени зависит от грамматической структуры метаязыка для выражения семантики целевых форм.

В вычислительной технике в блоке Specials Unicode предусмотрены специальные текстовые маркеры для обозначения начала и конца межстрочных толкований.

Структура

Хотя формальной спецификации формата IGT не существует, Лейпцигские правила глоссирования [3] представляют собой набор рекомендаций, направленных на максимальную стандартизацию формата.

Подстрочный текст по лингвистике обычно состоит из некоторых или всех из следующих элементов, обычно в следующем порядке сверху вниз:

и наконец

В качестве примера приведем следующее предложение на тайваньском языке Миньнань , транскрибированное пятью строками текста:

1. стандартная транслитерация pe̍h-ōe-jī ,
2. глянец с использованием номеров тонов для тонов поверхности,
3. глосса, показывающая основные тона в форме цитаты (до прохождения тонового сандхи ),
4. глоссарий морфем-за-морфемой на английском языке , и
5. английский перевод: [4]

(1.)

(2.)

(3.)

(4.)

гоа

гоа 1

гоа 2

я

iáu-boē

иау 1 -боэ 3

иау 2 -боэ 7

еще нет

коат-тенг

коат 2 -тенг 3

коат 4 -тенг 7

решать

тан-си

тан 7 -си 5

тан 1 -си 5

когда

боэх

боэ 2

боэ 4

хотеть

тнг-кхи

тнг 1 -хи 3 .

тнг 2 -хи 3 .

возвращаться.

(1.) goá iáu-boē koat-tēng tang-sî boeh tńg-khì

(2.) гоа1 иау1-боэ3 коат2-тенг3 тан7-си5 боэ2 тнг1-хи3.

(3.) гоа2 иау2-боэ7 коат4-тенг7 тан1-си5 боэх4 тнг2-хи3.

(4.) Я еще не решил, когда хочу вернуться.

(5.) «Я еще не решил, когда вернусь».

Пословное выравнивание . Согласно правилам Лейпцигского глоссирования, принято выравнивать по левому краю слова в объектном языке с соответствующими словами в метаязыке; это выравнивание можно увидеть между строками (1-3) и строкой (4).

Соответствие морфема-за-морфемой . На уровне подслов сегментируемые морфемы разделяются дефисами, как в примере, так и в глоссе. В примере и в глоссе должно быть одинаковое количество дефисов, как показано в следующем примере:

Гила

сейчас

абур-ун

они- OBL - GEN

ферма

ферма

хамишалууг

навсегда

güǧüna

позади

амук'-да-ч

остаться- FUT - NEG

Гила абур-ун ферма хамишалу гюджюна амук-да-ч

теперь они-OBL-GEN фарм навсегда позади оставайтесь-FUT-NEG

«Теперь их ферма не останется навсегда».

Метки грамматических категорий . В amuqʼ-da-č основа ( amuq ) переводится в соответствующую английскую лексему ( stay ), а флективные аффиксы ( da ) и ( č ) являются флективными аффиксами, представляющими будущее время и отрицание. Эти флективные аффиксы записываются как FUT и NEG ; список стандартных сокращений для грамматических категорий, которые широко используются в лингвистике, можно найти в Правилах глоссирования Лейпцига.

Соответствия один-ко-многим . Когда один элемент объектного языка соответствует нескольким элементам метаязыка, они разделяются точками. [3] Например,

Чик-мак

come.out- INF

Чик-мак

come.out-INF

'выйти'

Неявные элементы . Если морфемно-морфемный глосс (средняя строка) содержит элемент, который не соответствует явному элементу в примере, стандартная стратегия заключается во включении явного «ø» в текст на объектном языке [3] , который отделяется дефисом, как если бы явный элемент был:

пуэр-о

мальчик- НОМ

пуэр-о

мальчик-НОМ

'мальчик'

Редупликация обрабатывается аналогично аффиксации, но с тильдой (вместо стандартного дефиса), которая соединяет копируемый элемент с основой: [3]

би~били

IPFV ~купить

би~били

IPFV~купить

«покупает»

Пунктуация

В межстрочных морфологических глоссах различные формы пунктуации разделяют глоссарии. Обычно слова выравниваются по своим глоссариям; внутри слов дефис используется, когда граница отмечается как в тексте, так и в его глоссарии, точка, когда граница появляется только в одном. То есть должно быть одинаковое количество слов, разделенных пробелами в тексте и его глоссарии, а также одинаковое количество дефисных морфем в слове и его глоссарии. Это базовая система, и ее можно применять универсально. Например:

Одадан Хызлы Чиктым.

ода-дан

комната- ABL

комната-из

Хыз-ли

скорость- COM

скорость-с

чык-ты-м

go.out- PFV - 1sg

go_out-perfective-I

турецкий

 

 

ода-дан хыз-ли чык-ты-м

комната-ABL скорость-COM go.out-PFV-1sg

комната-из-скорость-с go_out-совершенный-I

«Я быстро вышел из комнаты».

Подчеркивание может использоваться вместо точки, как в go_out- PFV , когда одно слово в исходном языке соответствует фразе в языке глоссирования, хотя точка все равно будет использоваться в других ситуациях, например, в греческом oikíais house. FEM.PL.DAT 'в дома'.

Однако иногда могут быть сделаны более тонкие различия. Например, клитики могут быть разделены двойным дефисом (или, для удобства набора, знаком равенства) вместо дефиса. Французский пример:

Я люблю тебя.

je⹀te⹀aime

Я⹀тебя⹀люблю

(Французский)

 

je⹀te⹀aime

Я⹀тебя⹀люблю

'Я тебя люблю.'

Аффиксы, вызывающие разрывы ( инфиксы , циркумфиксы , трансфиксы и т. д.), могут быть выделены угловыми скобками, а редупликация — тильдами, а не дефисами:

сулат, сусулат, сумулат, сумусулат (глагольные склонение) (тагальский)

сулат

писать

су~сулат

созерцательное настроение~написать

s ⟨um⟩ улат

триггер агента .прошлое⟩ запись

s ⟨um⟩ у~сулат

 ⟨триггер агента⟩ созерцательный~писать

сулат су~сулат s ⟨um⟩ улат s ⟨um⟩ u~сулат

написать созерцательное настроение~написать ⟨триггер агента .прошлое⟩ написать ⟨триггер агента⟩  созерцательное~написать

( Другие примеры см. в разделе «Аффикс ».)

Морфемы, которые нелегко разделить, например, умляут , можно обозначить обратной косой чертой вместо точки:

unser-n

наш- DAT . PL

Вэтер-н

отец\ PL - DAT . PL

(Немецкий)

 

unser-n Väter-n

наш-DAT.PL отец\PL-DAT.PL

«нашим отцам» (единственное число от Väter «отцы» — Vater )

Несколько других условностей, которые иногда встречаются, проиллюстрированы в Лейпцигских правилах глоссирования. [3]

Межстрочные ресурсы глоссария

Были предприняты усилия по оцифровке IGT для сотен языков мира. [5]

Онлайн-база данных подстрочного текста

Онлайновая база данных подстрочных текстов (ODIN) — это база данных, содержащая более 200 000 примеров подстрочных толкований для более чем 1500 языков, извлеченных из научных лингвистических исследований. [6] База данных была создана в два этапа: автоматическое создание с последующей ручной коррекцией. Сам этап автоматического создания был завершен в три этапа:

  1. Во-первых, поисковые системы (например, Google, Bing) были запрошены для извлечения научных документов, которые, вероятно, содержали межстрочные толкования. Запросы включали термины, имеющие отношение к лингвистическим исследованиям, такие как грамматические морфемы (например, «NOM», сокращение от именительного падежа; «3SG», сокращение от третьего лица единственного числа).
  2. Во-вторых, каждая строка в извлеченном документе была помечена на предмет принадлежности к подстрочному глоссарию или нет с использованием методов маркировки последовательностей из машинного обучения.
  3. В-третьих, каждому экземпляру межстрочного глосса было присвоено название языка (например, тагальский) и идентификатор языка ISO 693-3. Названия языков и идентификаторы автоматически присваивались межстрочным глоссам с использованием моделей Coreference Resolution из Natural Language Processing, где экземпляр межстрочного глосса был помечен названием языка (и идентификатором), которое появляется в научном документе, из которого был извлечен экземпляр межстрочного глосса. [6]

На этапе ручной коррекции создатели базы данных вручную исправили границы межстрочных глосс, обнаруженных методом маркировки последовательностей на этапе 2 этапа автоматического построения. Затем создатели проверили названия языков и коды языков во втором и третьем проходе по данным соответственно.

Автоматическая обработка экземпляров межстрочного глянца

Разработаны модели обработки естественного языка, использующие ресурсы межстрочного глоссария, такие как Онлайновая база данных межстрочного текста. [7] [8]

Автоматическое глянцевание

Например, были разработаны системы обработки естественного языка для автоматического создания межстрочных толкований.: [7]

ми-с

вы- GEN

хумукули

верблюд

элю-аб-ок'ек'-аси

мы. OBL - ERG . 1 . PL -steal- PRT

ану

быть. ОТРИЦАТЕЛЬНЫЙ

ми-с Чумукули элу-аб-ок'ек'-аси ану

вы-GEN верблюд мы.OBL-ERG.1.PL-украсть-PRT быть.NEG

«Мы не крали твоего верблюда».

Учитывая сегментированную морфемную строку (первая строка выше) и строку свободного перевода (третья строка выше), задача состоит в том, чтобы создать среднюю глоссированную строку, содержащую переводы основ (например, mi : you ) и метки грамматических категорий, соответствующие аффиксам (например, a : ERG.1.PL ). Для выполнения этой задачи использовались модели прогнозирования последовательности из Natural Language Processing. [7] Два фактора способствуют сложности этой задачи:

  1. Перевод не обязательно соответствует сегментированной морфемной строке (например, camel — последнее слово в переводе, но второе слово в сегментированной морфемной строке).
  2. Некоторые слова в сегментированной по морфемам строке имеют несколько соответствий в глоссе (например, anu : be.NEG ).

Автоматическое обнаружение морфологической структуры из глосс

Исследователи использовали межстрочные глоссы для получения морфологических парадигм объектного языка (т. е. языка, который глоссуется). Для автоматического создания морфологических парадигм из межстрочных глоссов исследователи создали таблицы для каждой основы в глоссе и (возможно, пустую) ячейку для каждой грамматической категории (например, ERG) в глоссе. Например, учитывая предложение с глоссом ниже: [7]

Вечер-ом

вечер- INS

да

1. SG . НОМ

побежа-ла

запуск- PFV . PST . SG . FEM

в

в

журнал

магазин. АСС

Вечер-ом я победа-ла в магазине

вечер-INS 1.SG.NOM пробег-PFV.PST.SG.FEM в магазине.ACC

«Вечером я побежала в магазин».

Будет парадигма для ствола pobeja со слотами для PFV.PST.SG.FEM и PFV.PST.SG.MASC :

Слот для PFV.PST.SG.FEM будет заполнен (так как он наблюдался в данных межстрочного глосса), но слот для PFV.PST.SG.MASC будет пустым (предполагая, что никакой другой экземпляр межстрочного глосса не содержит pobeja, склоняемого для грамматической категории PFV.PST.SG.MASC ). Статистическая модель машинного обучения для морфологического склонения может быть использована для заполнения отсутствующих записей. [8] [9] [10] [11] [12]

Смотрите также

Ссылки

  1. ^ Леманн, Кристиан (23 января 2004 г.). «Инструкции по подстрочному морфемному переводу». В Герте Буидже; Кристиан Леманн; Иоахим Мугдан; Ставрос Скопетеас (ред.). Морфология. Ein Internationales Handbuch zur Flexion und Wortbildung . Handbücher der Sprach- und Kommunikationswissenschaft. Том. 2. Берлин: В. де Грюйтер. стр. 1834–1857.
  2. ^ Хаспельмат, Мартин (2008). Типология языка и универсалии языка: международный справочник . Вальтер де Грюйтер. С. 715. ISBN 978-3-11-011423-2.
  3. ^ abcde Bickel, Balthasar; Bernard Comrie; Martin Haspelmath (февраль 2008 г.). «Правила глоссирования в Лейпциге. Соглашения о межстрочных морфемных глоссах». Кафедра лингвистики – Ресурсы – Правила глоссирования . Получено 30.06.2010 г.
  4. Пример из книги «Базовый словарь тайваньского языка для начинающих» Ко Чек Хоана и Тан Пан Тина.
  5. ^ Джорджи, Райан (2016). От аари до зулу: массовое многоязычное создание языковых инструментов с использованием межстрочного глоссированного текста (PhD). Вашингтонский университет.
  6. ^ ab Xia, Fei; Lewis, William; Wayne, Michael; Slayden, Glenn; Georgi, Ryan; Crowgey, Joshua; Bender, Emily (2016). «Обогащение массивной многоязычной базы данных подстрочных глоссированных текстов». Language Resources and Evaluation . 50 (2): 321–349. doi :10.1007/s10579-015-9325-4. S2CID  2674996. Получено 15.12.2021 .
  7. ^ abcd Синюань, Чжао; Сатору, Одзаки; Анастасопулос, Антониос; Нойбиг, Грэм; Левин, Лори (2020). «Автоматическое межстрочное глоссирование для языков с ограниченными ресурсами с использованием переводов». COLING . Труды 28-й Международной конференции по компьютерной лингвистике: 5397–5408. doi : 10.18653/v1/2020.coling-main.471 . S2CID  227231816. Получено 15.12.2021 .
  8. ^ ab Мёллер, Сара; Лю, Лин; Ян, Чанбинг; Канн, Катарина; Халден, Манс (2020). «IG2P: от межстрочных глоссированных текстов к парадигмам». EMNLP . Труды конференции 2020 года по эмпирическим методам обработки естественного языка (EMNLP): 5251–5262. doi : 10.18653/v1/2020.emnlp-main.424 . S2CID  226262296. Получено 15 декабря 2021 г.
  9. ^ Сильфверберг, Миикка; Хулден, Манс (2018). «Подход кодировщика-декодера к проблеме заполнения ячеек парадигмы». Труды конференции 2018 года по эмпирическим методам обработки естественного языка . Брюссель, Бельгия: Ассоциация компьютерной лингвистики. стр. 2883–2889. doi : 10.18653/v1/D18-1315 . S2CID  53082616.
  10. ^ Wu, Shijie; Cotterell, Ryan; Hulden, Mans (2021). «Применение трансформатора к трансдукции на уровне символов». Труды 16-й конференции Европейского отделения Ассоциации компьютерной лингвистики: Основной том . Онлайн: Ассоциация компьютерной лингвистики. стр. 1901–1907. arXiv : 2005.10213 . doi : 10.18653/v1/2021.eacl-main.163 . S2CID  218718982.
  11. ^ Nicolai, Garrett; Cherry, Colin; Kondrak, Grzegorz (2015). «Inflection Generation as Discriminative String Transduction». Труды конференции 2015 года Североамериканского отделения Ассоциации компьютерной лингвистики: Технологии человеческого языка . Денвер, Колорадо: Ассоциация компьютерной лингвистики. стр. 922–931. doi : 10.3115/v1/N15-1093 . S2CID  14929030.
  12. ^ Бхаргава, Адитья; Кондрак, Гжегож (2012). «Использование дополнительных представлений для последовательной трансдукции». Труды конференции 2012 года Североамериканского отделения Ассоциации компьютерной лингвистики: Технологии человеческого языка . Монреаль, Канада: Ассоциация компьютерной лингвистики: 396–406.

Внешние ссылки