В лингвистике и педагогике подстрочный перевод — это подстрочный перевод (серия кратких пояснений, таких как определения или произношения), помещаемый между строками, например, между строкой исходного текста и его переводом на другой язык . При подстрочном переводе каждая строка исходного текста приобретает одну или несколько соответствующих строк транскрипции, известных как подстрочный текст или подстрочный текст с подстрочной глоссой ( IGT ) — сокращенно подстрочный перевод. Такие подстрочные переводы помогают читателю проследить связь между исходным текстом и его переводом, а также структуру исходного языка. В своей простейшей форме подстрочный перевод — это буквальный, слово в слово перевод исходного текста .
Межстрочные глоссы использовались для различных целей в течение длительного периода времени. Одним из распространенных применений было аннотирование двуязычных учебников для языкового образования. Этот вид межстрочной интерпретации помогает сделать значение исходного текста явным, не пытаясь формально моделировать структурные характеристики исходного языка.
Такие аннотации иногда выражались не через межстрочную компоновку, а скорее через перечисление слов в объектном и метаязыке. Одним из таких примеров является аннотация Вильгельма фон Гумбольдта к классическому науатлю : [1]
1
ни-
1
ich
2
с-
3
маше
3
чихуэй
2
эс
4
-лия
4
шерсть
5
в
5
дер
6
нет-
6
мой
7
пилтзин
7
Сон
8
се
8
эйн
9
калли
9
Хаус
Этот «встроенный» стиль позволяет включать примеры в поток текста, а также записывать порядок слов целевого языка в порядке, который приближается к синтаксису целевого языка. (В данном толковании mache es переупорядочен из соответствующего исходного порядка, чтобы более естественно приблизиться к немецкому синтаксису.) Тем не менее, этот подход требует от читателей «переупорядочить» соответствия между исходными и целевыми формами.
Более современные подходы 19-го и 20-го веков взяли за основу вертикальную глоссацию, выравнивая тот же самый вид пословного содержания таким образом, что термины метаязыка располагались вертикально под терминами исходного языка. В этом стиле данный пример можно было бы передать так (здесь английская глоссация):
ни-
я
с-
это
чихуэй
делать
-лия
для
в
к-к
нет-
мой
пилтзин
сын
се
а
калли
дом
«Я построил своему сыну дом».
Здесь порядок слов определяется синтаксисом объектного языка.
Наконец, современные лингвисты переняли практику использования сокращенных грамматических категорийных меток. Публикация 2008 года, которая повторяет этот пример, маркирует его следующим образом: [2]
ни-к-чихуэй-ля
1SG . SUBJ - 3SG . OBJ -mach- APPL
в
ДЭТ
нет-пилтзин
1SG . POSS -Sohn
се
эйн
калли
Хаус
Этот подход более плотный и также требует усилий для чтения, но он в меньшей степени зависит от грамматической структуры метаязыка для выражения семантики целевых форм.
В вычислительной технике в блоке Specials Unicode предусмотрены специальные текстовые маркеры для обозначения начала и конца подстрочных толкований.
Хотя формальной спецификации формата IGT не существует, Лейпцигские правила глоссирования [3] представляют собой набор рекомендаций, направленных на максимальную стандартизацию формата.
Подстрочный текст по лингвистике обычно состоит из некоторых или всех из следующих элементов, обычно в следующем порядке сверху вниз:
и наконец
В качестве примера приведем следующее предложение на тайваньском языке Миньнань , транскрибированное пятью строками текста:
(1.)
(2.)
(3.)
(4.)
гоа
гоа 1
гоа 2
я
iáu-boē
иау 1 -боэ 3
иау 2 -боэ 7
еще нет
коат-тенг
коат 2 -тенг 3
коат 4 -тенг 7
решать
тан-си
тан 7 -си 5
тан 1 -си 5
когда
боэх
боэ 2
боэ 4
хотеть
тнг-кхи
тнг 1 -хи 3 .
тнг 2 -хи 3 .
возвращаться.
(5.) «Я еще не решил, когда вернусь».
Пословное выравнивание . Согласно правилам Лейпцигского глоссирования, принято выравнивать по левому краю слова в объектном языке с соответствующими словами в метаязыке; это выравнивание можно увидеть между строками (1-3) и строкой (4).
Соответствие морфема-за-морфемой . На уровне подслов сегментируемые морфемы разделяются дефисами, как в примере, так и в глоссе. В примере и в глоссе должно быть одинаковое количество дефисов, как показано в следующем примере:
Гила
сейчас
абур-ун
они- OBL - GEN
ферма
ферма
хамишалууг
навсегда
güǧüna
позади
амук'-да-ч
остаться- FUT - NEG
«Теперь их ферма не останется навсегда».
Метки грамматических категорий . В amuqʼ-da-č основа ( amuq ) переводится в соответствующую английскую лексему ( stay ), а флективные аффиксы ( da ) и ( č ) являются флективными аффиксами, представляющими будущее время и отрицание. Эти флективные аффиксы записываются как FUT и NEG ; список стандартных сокращений для грамматических категорий, которые широко используются в лингвистике, можно найти в Правилах глоссирования Лейпцига.
Соответствия один-ко-многим . Когда один элемент объектного языка соответствует нескольким элементам метаязыка, они разделяются точками. [3] Например,
Чик-мак
come.out- INF
'выйти'
Неявные элементы . Если морфемно-морфемный глосс (средняя строка) содержит элемент, который не соответствует явному элементу в примере, стандартная стратегия заключается в том, чтобы включить явный «ø» в текст на объектном языке [3] , который отделяется дефисом, как если бы явный элемент был:
пуэр-о
мальчик- НОМ
'мальчик'
Редупликация обрабатывается аналогично аффиксации, но с тильдой (вместо стандартного дефиса), которая соединяет копируемый элемент с основой: [3]
би~били
IPFV ~купить
«покупает»
В межстрочных морфологических глоссах различные формы пунктуации разделяют глоссарии. Обычно слова выравниваются по своим глоссариям; внутри слов дефис используется, когда граница обозначена как в тексте, так и в его глоссарии, точка, когда граница появляется только в одном. То есть должно быть одинаковое количество слов, разделенных пробелами в тексте и его глоссарии, а также одинаковое количество дефисных морфем в слове и его глоссарии. Это базовая система, и ее можно применять универсально. Например:
ода-дан
комната- ABL
комната-из
Хыз-ли
скорость- COM
скорость-с
чык-ты-м
go.out- PFV - 1sg
go_out-perfective-I
турецкий
«Я быстро вышел из комнаты».
Подчеркивание может использоваться вместо точки, как в go_out- PFV , когда одно слово в исходном языке соответствует фразе в языке глоссирования, хотя точка все равно будет использоваться в других ситуациях, например, в греческом oikíais house. FEM.PL.DAT 'в дома'.
Однако иногда могут быть сделаны более тонкие различия. Например, клитики могут быть разделены двойным дефисом (или, для удобства набора, знаком равенства) вместо дефиса. Французский пример:
je⹀te⹀aime
Я⹀тебя⹀люблю
(Французский)
'Я тебя люблю.'
Аффиксы, нарушающие непрерывность ( инфиксы , циркумфиксы , трансфиксы и т. д.), можно выделять угловыми скобками, а дублирование — тильдами, а не дефисами:
сулат
писать
су~сулат
созерцательное настроение~написать
s ⟨um⟩ улат
⟨ триггер агента .прошлое⟩ запись
s ⟨um⟩ у~сулат
⟨триггер агента⟩ созерцательный~писать
( Другие примеры см. в разделе «Аффикс ».)
Морфемы, которые нелегко разделить, например, умляут , можно обозначить обратной косой чертой вместо точки:
unser-n
наш- DAT . PL
Вэтер-н
отец\ PL - DAT . PL
(Немецкий)
«нашим отцам» (единственное число от Väter «отцы» — Vater )
Несколько других условностей, которые иногда встречаются, проиллюстрированы в Лейпцигских правилах глоссирования. [3]
Были предприняты усилия по оцифровке IGT для сотен языков мира. [5]
Онлайновая база данных подстрочных текстов (ODIN) — это база данных, содержащая более 200 000 примеров подстрочных толкований для более чем 1500 языков, извлеченных из научных лингвистических исследований. [6] База данных была создана в два этапа: автоматическое создание с последующей ручной коррекцией. Сам этап автоматического создания был завершен в три этапа:
На этапе ручной коррекции создатели базы данных вручную исправили границы межстрочных глосс, обнаруженных методом маркировки последовательностей на этапе 2 этапа автоматического построения. Затем создатели проверили названия языков и коды языков во втором и третьем проходе по данным соответственно.
Разработаны модели обработки естественного языка, использующие ресурсы межстрочного глоссария, такие как Онлайновая база данных межстрочного текста. [7] [8]
Например, были разработаны системы обработки естественного языка для автоматического создания межстрочных толкований.: [7]
ми-с
вы- GEN
хумукули
верблюд
элю-аб-ок'ек'-аси
мы. OBL - ERG . 1 . PL -steal- PRT
ану
быть. ОТРИЦАТЕЛЬНЫЙ
«Мы не крали твоего верблюда».
Учитывая сегментированную морфемную строку (первая строка выше) и строку свободного перевода (третья строка выше), задача состоит в том, чтобы создать среднюю глоссированную строку, содержащую переводы основ (например, mi : you ) и метки грамматических категорий, соответствующие аффиксам (например, a : ERG.1.PL ). Для выполнения этой задачи использовались модели прогнозирования последовательности из Natural Language Processing. [7] Два фактора способствуют сложности этой задачи:
Некоторые искусственные языки, такие как Ифкуиль и Ложбан, имеют автоматизированные инструменты, которые (теоретически) всегда будут приводить к точному глоссингу из-за регуляризованной и логической природы этих языков. Вот примеры глоссингов Ифкуиля и Ложбана соответственно:
A'zvaţcaxüẓpöňḑeššaščëirktöňçogjahnói
S1 - «собака» - «то, что предположительно является X» - «огромный» - «как запланированный результат человеческих действий» - «какой-то или другой» - DDF - «как порошок или пыль» - «съеденный в качестве полдника» - «надежность источника неизвестна, а информация не поддается проверке» - «предположение/теория/гипотеза, которая может быть проверена/поддается проверке» - COU - POT
nnt
«Это может означать только одно...»
Есть только одно объяснение; доказать это невозможно, и мое психическое состояние несколько затуманено, но это определенно было бы плохо сформированным слиянием той пары разных рукотворных огромных существ, которые кажутся собаками в виде пыли, поданной в качестве дневного перекуса где-то там у вас. О, и не цитируйте меня в этом.
ми
Я=х 1
люмчи
стирать
ле
ДЭТ
крека
рубашка=x 2
ле
ДЭТ
грасу
смазка=x 3
ле
ДЭТ
рирксе
река=x 4
Я смываю жир с рубашки в реке.
Исследователи использовали межстрочные глоссы для получения морфологических парадигм объектного языка (т. е. языка, который глоссуется). Для автоматического создания морфологических парадигм из межстрочных глоссов исследователи создали таблицы для каждой основы в глоссе и (возможно, пустую) ячейку для каждой грамматической категории (например, ERG) в глоссе. Например, учитывая предложение с глоссом ниже: [7]
Вечер-ом
вечер- INS
да
1. SG . НОМ
побежа-ла
запуск- PFV . PST . SG . FEM
в
в
журнал
магазин. АСС
«Вечером я побежала в магазин».
Будет парадигма для ствола pobeja со слотами для PFV.PST.SG.FEM и PFV.PST.SG.MASC :
Слот для PFV.PST.SG.FEM будет заполнен (так как он наблюдался в данных межстрочного глосса), но слот для PFV.PST.SG.MASC будет пустым (предполагая, что никакой другой экземпляр межстрочного глосса не содержит pobeja, склоняемого для грамматической категории PFV.PST.SG.MASC ). Статистическая модель машинного обучения для морфологического склонения может быть использована для заполнения отсутствующих записей. [8] [9] [10] [11] [12]