Подстрочный глянец

В лингвистике и педагогике подстрочный глосс — это глосса (серия кратких пояснений, например определений или произношения), помещаемых между строками, например, между строкой исходного текста и его переводом на другой язык . При глоссировании каждая строка исходного текста приобретает одну или несколько соответствующих строк транскрипции, известных как подстрочный текст или подстрочный глоссированный текст ( IGT ) — для краткости подстрочный . Такие глоссы помогают читателю проследить связь между исходным текстом и его переводом, а также структуру языка оригинала. В своей простейшей форме подстрочный глосс — это просто буквальный, дословный перевод исходного текста .

История

Подстрочные глянцы использовались для различных целей в течение длительного периода времени. Одним из распространенных способов использования было аннотирование двуязычных учебников по языковому образованию. Этот вид интерлинеаризации помогает сделать смысл исходного текста явным, не пытаясь формально смоделировать структурные характеристики исходного языка.

Такие аннотации иногда выражались не через подстрочную раскладку, а через перечисление слов в объектном и метаязыке. Одним из таких примеров является аннотация Вильгельма фон Гумбольдта к «Классическому науатлю» : ^[1]

ни-

с-

маше

Чихуэй

эс

-лия

шерсть

дер

нет-

майн

пильцин

Зон

Эйн

Калли

Хаус

Этот «встроенный» стиль позволяет включать примеры в поток текста и записывать порядок слов целевого языка в порядке, который приблизительно соответствует синтаксису целевого языка. (Здесь в пояснении mache es переупорядочивается из соответствующего исходного порядка, чтобы более естественно приблизиться к немецкому синтаксису.) Несмотря на это, этот подход требует от читателей «перевыравнивать» соответствия между исходной и целевой формами.

Более современные подходы 19-го и 20-го веков сводились к вертикальному толкованию, выравниванию одного и того же типа пословного содержания таким образом, что метаязыковые термины располагались вертикально под терминами исходного языка. В этом стиле данный пример можно было бы передать так (здесь английский глосс):

ни-

с-

это

Чихуэй

делать

-лия

для

к-к

нет-

мой

пильцин

сын

Калли

дом

«Я построил своему сыну дом».

Здесь порядок слов определяется синтаксисом объектного языка.

Наконец, современные лингвисты переняли практику использования сокращенных грамматических обозначений категорий. В публикации 2008 года, повторяющей этот пример, он помечен следующим образом: ^[2]

ни-с-чихуи-лия

1СГ . СУБЖ - 3СГ . OBJ -машина- APPL

ДЭТ

не-пильцин

1СГ . ПОСС -Зон

Эйн

Калли

Хаус

Этот подход более плотный и требует усилий при чтении, но он в меньшей степени зависит от грамматической структуры метаязыка для выражения семантики целевых форм.

При вычислениях в блоке Specials Unicode предусмотрены специальные текстовые маркеры , обозначающие начало и конец подстрочных глосс.

Состав

Хотя официальной спецификации формата IGT не существует, Лейпцигские правила глоссирования ^[3] представляют собой набор рекомендаций, направленных на максимальную стандартизацию формата.

Подстрочный текст для лингвистики обычно состоит из некоторых или всех следующих элементов, обычно в таком порядке, сверху вниз:

Исходная орфография (обычно курсивом или жирным курсивом ),
обычная транслитерация на латиницу,
фонетическая транскрипция ,
морфонематическая транслитерация ,
пословный или поморфемный словарь , где морфемы внутри слова разделяются дефисами или другими знаками препинания,

и наконец

свободный перевод, который может быть помещен в отдельный абзац или на следующую страницу, если структура языков слишком различна для того, чтобы он мог следовать за текстом построчно.

Например, следующее предложение на тайваньском языке было расшифровано пятью строками текста:

1. стандартная транслитерация пэ-э-джи ,

2. глянец с использованием номеров тонов для тонов поверхности,

3. глосса, показывающая основные тона в форме цитирования (до прохождения тона сандхи ),

4. толкование морфем за морфемами на английском языке и

5. английский перевод: ^[4]

(1.)

(2.)

(3.)

(4.)

Гоа

Гоа ¹

Гоа ²

иау-боэ

иау ¹ -боэ ³

иау ² -боэ ⁷

еще нет

коат-тенг

коат ² - тэн ³

коат ⁴ - тэн ⁷

решать

Тан-си

Тан ⁷ -си ⁵

Тан ¹ -си ⁵

когда

боэ

боэ ²

боэ ⁴

хотеть

тнг-кхи

тнг ¹ -хи ³ .

тнг ² -хи ³ .

возвращаться.

(5) «Я еще не решил, когда вернусь».

Пословное выравнивание . Согласно Лейпцигским правилам глоссирования, стандартным является выравнивание слов объектного языка по левому краю с соответствующими словами метаязыка; это выравнивание можно увидеть между строками (1-3) и строкой (4).

Морфемное соответствие . На уровне подслова сегментируемые морфемы разделяются дефисом как в примере, так и в глоссе. В примере и в глоссе должно быть одинаковое количество дефисов, как показано в следующем примере:

Хила

сейчас

абур-ун

они- ОБЛ - GEN

ферма

Хамишалу

навсегда

гююнна

позади

амук-да-ч

остаться- FUT - NEG

«Теперь их ферма не останется навсегда».

Метки грамматических категорий . В amuqʼ-da-č основа ( amuq ) переводится в соответствующую английскую лексему ( stay ), а флективные аффиксы ( da ) и ( č ) являются флективными аффиксами, обозначающими будущее время и отрицание. Эти флективные аффиксы обозначаются как FUT и NEG ; список стандартных сокращений грамматических категорий, широко используемых в лингвистике, можно найти в Лейпцигских правилах глоссирования.

Соответствие один-ко-многим . Когда одному элементу объектного языка соответствует несколько элементов метаязыка, они разделяются точками. ^[3] Например,

чик-мак

Come.out- ИНФ

'выйти'

Неявные элементы . если толкование морфем за морфемами (средняя строка) содержит элемент, который не соответствует явному элементу в примере, стандартная стратегия состоит в том, чтобы включить явную букву «ø» в текст объектного языка, ^[3] что разделенные дефисом, как явный элемент, будут:

пуэр-о

мальчик-ном.sg

'мальчик'

Редупликация рассматривается аналогично аффиксации, но с использованием тильды (вместо стандартного дефиса), соединяющей копируемый элемент с основой: ^[3]

би~били

ИПФВ ~купить

'покупает'

Пунктуация

В подстрочных морфологических глоссах глоссы разделяются различными формами пунктуации. Обычно слова соответствуют их толкованию; внутри слов дефис используется, когда граница обозначена как в тексте, так и в его глянце, период, когда граница появляется только в одном. То есть в тексте и его толковании должно быть одинаковое количество слов, разделенных пробелами, а также одинаковое количество дефисных морфем внутри слова и его толкования. Это базовая система, и ее можно применять универсально. Например,

Одадан Хызлы Чыктым. (Турецкий)

ода-дан

номер- ABL

комната-от

Хыз-ли

скорость- COM

скорость-с

чик-ты-м

go.out- ПФВ - 1сг

go_out-perfect-I

— Я быстро вышел из комнаты.

Вместо точки можно использовать подчеркивание, как в go_out- PFV , когда одно слово на исходном языке соответствует фразе на языке глоссирования, хотя точка все равно будет использоваться в других ситуациях, например, в греческом oikíais . дом. ФЕМ.ПЛ.ДАТ 'в дома'.

Однако иногда можно провести более тонкие различия. Например, клитики могут быть разделены двойным дефисом (или, для удобства ввода, знаком равенства), а не дефисом:

Я тебя люблю. (Французский)

je⹀te⹀aime

Я тебя люблю

'Я тебя люблю.'

Аффиксы, которые вызывают разрыв ( инфиксы , циркумфиксы , трансфиксы и т. д.), могут быть выделены угловыми скобками, а дублирование — тильдами, а не дефисами:

сулат, сусулат, сумулат, сумусулат (глагольные склонение) (тагальский)

Сулат

писать

су~сулат

созерцательное настроение~пиши

с ⟨ум⟩ улат

⟨ триггер агента .прошлое⟩ запись

с ⟨ум⟩ у~сулат

⟨триггер агента⟩ созерцательный~запись

( Другие примеры см. в аффиксе .)

Морфемы, которые нелегко отделить, например умлаут , могут быть отмечены обратной косой чертой, а не точкой:

unser-n

наш- DAT . ПЛ

Väter-n

отец \ PL - DAT . ПЛ

(Немецкий)

«нашим отцам» (единственное число слова Väter «отцы» — Vater )

Несколько других условностей, которые иногда встречаются, проиллюстрированы в Лейпцигских правилах глоссирования. ^[3]

Ресурсы по подстрочному глянцу

Были предприняты усилия по оцифровке IGT для сотен языков мира. ^[5]

Интернет-база данных подстрочного текста

Онлайн-база данных подстрочного текста (ODIN) представляет собой базу данных, содержащую более 200 000 экземпляров подстрочных глосс для более чем 1500 языков, извлеченных из научных лингвистических исследований. ^[6] База данных создавалась в два этапа: автоматическое построение с последующей ручной коррекцией. Сам этап автоматического строительства проходил в три этапа:

Во-первых, поисковым системам (например, Google, Bing) было предложено найти научные документы, которые, вероятно, содержали подстрочные толкования. Запросы включали термины, имеющие отношение к лингвистическим исследованиям, такие как грамматические морфемы (например, «НОМ» — сокращение именительного падежа; «3SG» — сокращение третьего лица единственного числа).
Во-вторых, каждая строка в извлеченном документе была помечена с учетом того, принадлежала ли она к подстрочному глоссу или нет, с использованием методов маркировки последовательностей из машинного обучения.
В-третьих, каждому экземпляру подстрочного глосса было присвоено название языка (например, тагальский) и идентификатор языка ISO 693-3. Названия и идентификаторы языков автоматически присваивались подстрочным глоссам с использованием моделей разрешения кореференции из Natural Language Processing, где экземпляр подстрочного глосса был помечен названием языка (и идентификатором), которое появляется в научном документе, из которого был извлечен экземпляр подстрочного глосса. ^[6]

На этапе ручной коррекции создатели базы данных вручную корректировали границы экземпляров подстрочного блеска, обнаруженных методом маркировки последовательностей на этапе 2 этапа автоматического построения. Затем создатели проверили названия языков и языковые коды во втором и третьем проходе данных соответственно.

Автоматическая обработка экземпляров подстрочного глянца

Были разработаны модели обработки естественного языка, использующие ресурсы подстрочного глосса, такие как онлайн-база данных подстрочного текста. ^[7]^[8]

Автоматическое глянцевание

Например, системы обработки естественного языка были разработаны для автоматического создания подстрочных толкований: ^[7]

ми-с

ты- ГЕН

Чумукули

верблюд

элу-аб-ок'ек'-аси

мы. ОБЛ - ЭРГ . 1 . PL -украсть- PRT

ану

быть. НЕГ

— Мы не крали твоего верблюда.

Учитывая сегментированную строку морфем (первая строка выше) и строку свободного перевода (третья строка выше), задача состоит в том, чтобы создать среднюю глянцевую строку, содержащую переводы основы (например, mi: you) и метки грамматических категорий, соответствующие аффиксам (например, mi : you ) и метки грамматических категорий, соответствующие аффиксам (например, mi: you). , а : ERG.1.PL ). Для выполнения этой задачи использовались модели прогнозирования последовательностей из обработки естественного языка. ^[7] Два фактора усложняют эту задачу:

Перевод не обязательно соответствует морфемной сегментированной строке (например, верблюд — последнее слово в переводе, но второе слово в морфемной сегментированной строке).
Некоторые слова в сегментированной строке морфем имеют несколько соответствий в глоссе (например, anu : be.NEG ).

Автоматическое определение морфологической структуры по глоссам

Исследователи использовали подстрочные глоссы для получения морфологических парадигм объектного языка (т. е. языка, который глоссируется). Чтобы автоматически создавать морфологические парадигмы из подстрочных глосс, исследователи создали таблицы для каждой основы в глоссе и (возможно, пустое) место для каждой грамматической категории (например, ERG) в глоссе. Например, учитывая приведенное ниже предложение: ^[7]

Вечер-ом

вечер- INS

да

1 . СГ . НОМ

победа-ла

запустить- PFV . ТИХООКЕАНСКОЕ СТАНДАРТНОЕ ВРЕМЯ . СГ . ФЭМ

журнал

магазин. АСС

«Вечером я побежал в магазин».

Была бы парадигма для основы победы со слотами для PFV.PST.SG.FEM и PFV.PST.SG.MASC :

Слот для PFV.PST.SG.FEM будет заполнен (поскольку он наблюдался в данных подстрочного блеска), но слот для PFV.PST.SG.MASC будет пустым (при условии, что ни один другой экземпляр подстрочного блеска не содержит побега, измененного для грамматическая категория PFV.PST.SG.MASC ) . Для заполнения недостающих записей можно использовать статистическую модель машинного обучения для морфологического перегиба. ^[8]^[9]^[10]^[11]^[12]

Смотрите также

Канбун - японская традиция толкования классических китайских текстов.
Рубиновый текст - блеск, который иногда используется в китайском или японском языках для демонстрации произношения.
Маркировка частей речи , часто отображаемая в виде подстрочных толкований под отмеченными словами, иногда одновременно с подстрочным пословным переводом.
Treebanks , часто отображается в виде глоссы или аннотации к исходному тексту.
Джеймс Гамильтон , композитор девятнадцатого века и пропагандист подстрочных текстов для изучения языков.
Метафраза

Внешние ссылки

Лейпцигские правила глоссирования: соглашения для подстрочных поморфемных глосс
Стандарты подстрочного глянцевого текста (E-MELD)
Уровни подстрочного глянцевого текста (E-MELD)
К общей модели подстрочного текста (E-MELD)
Подстрочные морфемные глоссы
Глоссирование древних языков и текстов. Форум рекомендаций по межлинейному морфемическому толкованию древних языков, подтвержденному древними рукописями.
Онлайн-подстрочный текст Библейских Греческих Писаний (Новый Завет)
ODIN - Интернет-база данных межстрочного текста
Страница латинского подстрочного метода. Список старых подстрочных и интерпретированных текстов, в основном на латыни или древнегреческом языке и в основном на английском языке.
Эрнест Блюм, «Новый старый способ изучения языков», The American Scholar , осень 2008 г.

Подстрочный глянец

История

Состав

Пунктуация

Ресурсы по подстрочному глянцу

Интернет-база данных подстрочного текста

Автоматическая обработка экземпляров подстрочного глянца

Автоматическое глянцевание

Автоматическое определение морфологической структуры по глоссам

Смотрите также

Рекомендации

Внешние ссылки