В лингвистике и педагогике подстрочный глосс — это глосса (серия кратких пояснений, например определений или произношения), помещаемых между строками, например, между строкой исходного текста и его переводом на другой язык . При глоссировании каждая строка исходного текста приобретает одну или несколько соответствующих строк транскрипции, известных как подстрочный текст или подстрочный глоссированный текст ( IGT ) — для краткости подстрочный . Такие глоссы помогают читателю проследить связь между исходным текстом и его переводом, а также структуру языка оригинала. В своей простейшей форме подстрочный глосс — это просто буквальный, дословный перевод исходного текста .
Подстрочные глянцы использовались для различных целей в течение длительного периода времени. Одним из распространенных способов использования было аннотирование двуязычных учебников по языковому образованию. Этот вид интерлинеаризации помогает сделать смысл исходного текста явным, не пытаясь формально смоделировать структурные характеристики исходного языка.
Такие аннотации иногда выражались не через подстрочную раскладку, а через перечисление слов в объектном и метаязыке. Одним из таких примеров является аннотация Вильгельма фон Гумбольдта к «Классическому науатлю» : [1]
1
ни-
1
я
2
с-
3
маше
3
Чихуэй
2
эс
4
-лия
4
шерсть
5
в
5
дер
6
нет-
6
майн
7
пильцин
7
Зон
8
CE
8
Эйн
9
Калли
9
Хаус
Этот «встроенный» стиль позволяет включать примеры в поток текста и записывать порядок слов целевого языка в порядке, который приблизительно соответствует синтаксису целевого языка. (Здесь в пояснении mache es переупорядочивается из соответствующего исходного порядка, чтобы более естественно приблизиться к немецкому синтаксису.) Несмотря на это, этот подход требует от читателей «перевыравнивать» соответствия между исходной и целевой формами.
Более современные подходы 19-го и 20-го веков сводились к вертикальному толкованию, выравниванию одного и того же типа пословного содержания таким образом, что метаязыковые термины располагались вертикально под терминами исходного языка. В этом стиле данный пример можно было бы передать так (здесь английский глосс):
ни-
я
с-
это
Чихуэй
делать
-лия
для
в
к-к
нет-
мой
пильцин
сын
CE
а
Калли
дом
«Я построил своему сыну дом».
Здесь порядок слов определяется синтаксисом объектного языка.
Наконец, современные лингвисты переняли практику использования сокращенных грамматических обозначений категорий. В публикации 2008 года, повторяющей этот пример, он помечен следующим образом: [2]
ни-с-чихуи-лия
1СГ . СУБЖ - 3СГ . OBJ -машина- APPL
в
ДЭТ
не-пильцин
1СГ . ПОСС -Зон
CE
Эйн
Калли
Хаус
Этот подход более плотный и требует усилий при чтении, но он в меньшей степени зависит от грамматической структуры метаязыка для выражения семантики целевых форм.
При вычислениях в блоке Specials Unicode предусмотрены специальные текстовые маркеры , обозначающие начало и конец подстрочных глосс.
Хотя официальной спецификации формата IGT не существует, Лейпцигские правила глоссирования [3] представляют собой набор рекомендаций, направленных на максимальную стандартизацию формата.
Подстрочный текст для лингвистики обычно состоит из некоторых или всех следующих элементов, обычно в таком порядке, сверху вниз:
и наконец
Например, следующее предложение на тайваньском языке было расшифровано пятью строками текста:
(1.)
(2.)
(3.)
(4.)
Гоа
Гоа 1
Гоа 2
я
иау-боэ
иау 1 -боэ 3
иау 2 -боэ 7
еще нет
коат-тенг
коат 2 - тэн 3
коат 4 - тэн 7
решать
Тан-си
Тан 7 -си 5
Тан 1 -си 5
когда
боэ
боэ 2
боэ 4
хотеть
тнг-кхи
тнг 1 -хи 3 .
тнг 2 -хи 3 .
возвращаться.
(5) «Я еще не решил, когда вернусь».
Пословное выравнивание . Согласно Лейпцигским правилам глоссирования, стандартным является выравнивание слов объектного языка по левому краю с соответствующими словами метаязыка; это выравнивание можно увидеть между строками (1-3) и строкой (4).
Морфемное соответствие . На уровне подслова сегментируемые морфемы разделяются дефисом как в примере, так и в глоссе. В примере и в глоссе должно быть одинаковое количество дефисов, как показано в следующем примере:
Хила
сейчас
абур-ун
они- ОБЛ - GEN
ферма
ферма
Хамишалу
навсегда
гююнна
позади
амук-да-ч
остаться- FUT - NEG
«Теперь их ферма не останется навсегда».
Метки грамматических категорий . В amuqʼ-da-č основа ( amuq ) переводится в соответствующую английскую лексему ( stay ), а флективные аффиксы ( da ) и ( č ) являются флективными аффиксами, обозначающими будущее время и отрицание. Эти флективные аффиксы обозначаются как FUT и NEG ; список стандартных сокращений грамматических категорий, широко используемых в лингвистике, можно найти в Лейпцигских правилах глоссирования.
Соответствие один-ко-многим . Когда одному элементу объектного языка соответствует несколько элементов метаязыка, они разделяются точками. [3] Например,
чик-мак
Come.out- ИНФ
'выйти'
Неявные элементы . если толкование морфем за морфемами (средняя строка) содержит элемент, который не соответствует явному элементу в примере, стандартная стратегия состоит в том, чтобы включить явную букву «ø» в текст объектного языка, [3] что разделенные дефисом, как явный элемент, будут:
пуэр-о
мальчик-ном.sg
'мальчик'
Редупликация рассматривается аналогично аффиксации, но с использованием тильды (вместо стандартного дефиса), соединяющей копируемый элемент с основой: [3]
би~били
ИПФВ ~купить
'покупает'
В подстрочных морфологических глоссах глоссы разделяются различными формами пунктуации. Обычно слова соответствуют их толкованию; внутри слов дефис используется, когда граница обозначена как в тексте, так и в его глянце, период, когда граница появляется только в одном. То есть в тексте и его толковании должно быть одинаковое количество слов, разделенных пробелами, а также одинаковое количество дефисных морфем внутри слова и его толкования. Это базовая система, и ее можно применять универсально. Например,
ода-дан
номер- ABL
комната-от
Хыз-ли
скорость- COM
скорость-с
чик-ты-м
go.out- ПФВ - 1сг
go_out-perfect-I
— Я быстро вышел из комнаты.
Вместо точки можно использовать подчеркивание, как в go_out- PFV , когда одно слово на исходном языке соответствует фразе на языке глоссирования, хотя точка все равно будет использоваться в других ситуациях, например, в греческом oikíais . дом. ФЕМ.ПЛ.ДАТ 'в дома'.
Однако иногда можно провести более тонкие различия. Например, клитики могут быть разделены двойным дефисом (или, для удобства ввода, знаком равенства), а не дефисом:
je⹀te⹀aime
Я тебя люблю
'Я тебя люблю.'
Аффиксы, которые вызывают разрыв ( инфиксы , циркумфиксы , трансфиксы и т. д.), могут быть выделены угловыми скобками, а дублирование — тильдами, а не дефисами:
Сулат
писать
су~сулат
созерцательное настроение~пиши
с ⟨ум⟩ улат
⟨ триггер агента .прошлое⟩ запись
с ⟨ум⟩ у~сулат
⟨триггер агента⟩ созерцательный~запись
( Другие примеры см. в аффиксе .)
Морфемы, которые нелегко отделить, например умлаут , могут быть отмечены обратной косой чертой, а не точкой:
unser-n
наш- DAT . ПЛ
Väter-n
отец \ PL - DAT . ПЛ
(Немецкий)
«нашим отцам» (единственное число слова Väter «отцы» — Vater )
Несколько других условностей, которые иногда встречаются, проиллюстрированы в Лейпцигских правилах глоссирования. [3]
Были предприняты усилия по оцифровке IGT для сотен языков мира. [5]
Онлайн-база данных подстрочного текста (ODIN) представляет собой базу данных, содержащую более 200 000 экземпляров подстрочных глосс для более чем 1500 языков, извлеченных из научных лингвистических исследований. [6] База данных создавалась в два этапа: автоматическое построение с последующей ручной коррекцией. Сам этап автоматического строительства проходил в три этапа:
На этапе ручной коррекции создатели базы данных вручную корректировали границы экземпляров подстрочного блеска, обнаруженных методом маркировки последовательностей на этапе 2 этапа автоматического построения. Затем создатели проверили названия языков и языковые коды во втором и третьем проходе данных соответственно.
Были разработаны модели обработки естественного языка, использующие ресурсы подстрочного глосса, такие как онлайн-база данных подстрочного текста. [7] [8]
Например, системы обработки естественного языка были разработаны для автоматического создания подстрочных толкований: [7]
ми-с
ты- ГЕН
Чумукули
верблюд
элу-аб-ок'ек'-аси
мы. ОБЛ - ЭРГ . 1 . PL -украсть- PRT
ану
быть. НЕГ
— Мы не крали твоего верблюда.
Учитывая сегментированную строку морфем (первая строка выше) и строку свободного перевода (третья строка выше), задача состоит в том, чтобы создать среднюю глянцевую строку, содержащую переводы основы (например, mi: you) и метки грамматических категорий, соответствующие аффиксам (например, mi : you ) и метки грамматических категорий, соответствующие аффиксам (например, mi: you). , а : ERG.1.PL ). Для выполнения этой задачи использовались модели прогнозирования последовательностей из обработки естественного языка. [7] Два фактора усложняют эту задачу:
Исследователи использовали подстрочные глоссы для получения морфологических парадигм объектного языка (т. е. языка, который глоссируется). Чтобы автоматически создавать морфологические парадигмы из подстрочных глосс, исследователи создали таблицы для каждой основы в глоссе и (возможно, пустое) место для каждой грамматической категории (например, ERG) в глоссе. Например, учитывая приведенное ниже предложение: [7]
Вечер-ом
вечер- INS
да
1 . СГ . НОМ
победа-ла
запустить- PFV . ТИХООКЕАНСКОЕ СТАНДАРТНОЕ ВРЕМЯ . СГ . ФЭМ
в
в
журнал
магазин. АСС
«Вечером я побежал в магазин».
Была бы парадигма для основы победы со слотами для PFV.PST.SG.FEM и PFV.PST.SG.MASC :
Слот для PFV.PST.SG.FEM будет заполнен (поскольку он наблюдался в данных подстрочного блеска), но слот для PFV.PST.SG.MASC будет пустым (при условии, что ни один другой экземпляр подстрочного блеска не содержит побега, измененного для грамматическая категория PFV.PST.SG.MASC ) . Для заполнения недостающих записей можно использовать статистическую модель машинного обучения для морфологического перегиба. [8] [9] [10] [11] [12]