stringtranslate.com

Подстрочный глянец

В лингвистике и педагогике подстрочный глосс — это глосса (серия кратких пояснений, например определений или произношения), помещаемых между строками, например, между строкой исходного текста и его переводом на другой язык . При глоссировании каждая строка исходного текста приобретает одну или несколько соответствующих строк транскрипции, известных как подстрочный текст или подстрочный глоссированный текст ( IGT ) — для краткости подстрочный . Такие глоссы помогают читателю проследить связь между исходным текстом и его переводом, а также структуру языка оригинала. В своей простейшей форме подстрочный глосс — это просто буквальный, дословный перевод исходного текста .

История

Подстрочный текст в Toussaint-Langenscheidt Spanisch , учебнике испанского языка для немецкоязычных , 1910 г.

Подстрочные глянцы использовались для различных целей в течение длительного периода времени. Одним из распространенных способов использования было аннотирование двуязычных учебников по языковому образованию. Этот вид интерлинеаризации помогает сделать смысл исходного текста явным, не пытаясь формально смоделировать структурные характеристики исходного языка.

Такие аннотации иногда выражались не через подстрочную раскладку, а через перечисление слов в объектном и метаязыке. Одним из таких примеров является аннотация Вильгельма фон Гумбольдта к «Классическому науатлю» : [1]

1

ни-

1

я

2

с-

3

маше

3

Чихуэй

2

эс

4

-лия

4

шерсть

5

в

5

дер

6

нет-

6

майн

7

пильцин

7

Зон

8

CE

8

Эйн

9

Калли

9

Хаус

1 2 3 4 5 6 7 8 9

ni- c- chihui -lia in no- piltzin ce calli

1 3 2 4 5 6 7 8 9

Ich mache es für der mein Sohn ein Haus

Этот «встроенный» стиль позволяет включать примеры в поток текста и записывать порядок слов целевого языка в порядке, который приблизительно соответствует синтаксису целевого языка. (Здесь в пояснении mache es переупорядочивается из соответствующего исходного порядка, чтобы более естественно приблизиться к немецкому синтаксису.) Несмотря на это, этот подход требует от читателей «перевыравнивать» соответствия между исходной и целевой формами.

Более современные подходы 19-го и 20-го веков сводились к вертикальному толкованию, выравниванию одного и того же типа пословного содержания таким образом, что метаязыковые термины располагались вертикально под терминами исходного языка. В этом стиле данный пример можно было бы передать так (здесь английский глосс):

ни-

я

с-

это

Чихуэй

делать

-лия

для

в

к-к

нет-

мой

пильцин

сын

CE

а

Калли

дом

ni- c- chihui -lia in no- piltzin ce calli

I it make for to-the my son a house

«Я построил своему сыну дом».

Здесь порядок слов определяется синтаксисом объектного языка.

Наконец, современные лингвисты переняли практику использования сокращенных грамматических обозначений категорий. В публикации 2008 года, повторяющей этот пример, он помечен следующим образом: [2]

ни-с-чихуи-лия

1СГ . СУБЖ - 3СГ . OBJ -машина- APPL

в

ДЭТ

не-пильцин

1СГ . ПОСС -Зон

CE

Эйн

Калли

Хаус

ni-c-chihui-lia in no-piltzin ce calli

1SG.SUBJ-3SG.OBJ-mach-APPL DET 1SG.POSS-Sohn ein Haus

Этот подход более плотный и требует усилий при чтении, но он в меньшей степени зависит от грамматической структуры метаязыка для выражения семантики целевых форм.

При вычислениях в блоке Specials Unicode предусмотрены специальные текстовые маркеры , обозначающие начало и конец подстрочных глосс.

Состав

Хотя официальной спецификации формата IGT не существует, Лейпцигские правила глоссирования [3] представляют собой набор рекомендаций, направленных на максимальную стандартизацию формата.

Подстрочный текст для лингвистики обычно состоит из некоторых или всех следующих элементов, обычно в таком порядке, сверху вниз:

и наконец

Например, следующее предложение на тайваньском языке было расшифровано пятью строками текста:

1. стандартная транслитерация пэ-э-джи ,
2. глянец с использованием номеров тонов для тонов поверхности,
3. глосса, показывающая основные тона в форме цитирования (до прохождения тона сандхи ),
4. толкование морфем за морфемами на английском языке и
5. английский перевод: [4]

(1.)

(2.)

(3.)

(4.)

Гоа

Гоа 1

Гоа 2

я

иау-боэ

иау 1 -боэ 3

иау 2 -боэ 7

еще нет

коат-тенг

коат 2 - тэн 3

коат 4 - тэн 7

решать

Тан-си

Тан 7 -си 5

Тан 1 -си 5

когда

боэ

боэ 2

боэ 4

хотеть

тнг-кхи

тнг 1 -хи 3 .

тнг 2 -хи 3 .

возвращаться.

(1.) goá iáu-boē koat-tēng tang-sî boeh tńg-khì

(2.) goa1 iau1-boe3 koat2-teng3 tang7-si5 boeh2 tng1-khi3.

(3.) goa2 iau2-boe7 koat4-teng7 tang1-si5 boeh4 tng2-khi3.

(4.) I not-yet decide when want return.

(5) «Я еще не решил, когда вернусь».

Пословное выравнивание . Согласно Лейпцигским правилам глоссирования, стандартным является выравнивание слов объектного языка по левому краю с соответствующими словами метаязыка; это выравнивание можно увидеть между строками (1-3) и строкой (4).

Морфемное соответствие . На уровне подслова сегментируемые морфемы разделяются дефисом как в примере, так и в глоссе. В примере и в глоссе должно быть одинаковое количество дефисов, как показано в следующем примере:

Хила

сейчас

абур-ун

они- ОБЛ - GEN

ферма

ферма

Хамишалу

навсегда

гююнна

позади

амук-да-ч

остаться- FUT - NEG

Gila abur-u-n ferma hamišaluǧ güǧüna amuqʼ-da-č

now they-OBL-GEN farm forever behind stay-FUT-NEG

«Теперь их ферма не останется навсегда».

Метки грамматических категорий . В amuqʼ-da-č основа ( amuq ) переводится в соответствующую английскую лексему ( stay ), а флективные аффиксы ( da ) и ( č ) являются флективными аффиксами, обозначающими будущее время и отрицание. Эти флективные аффиксы обозначаются как FUT и NEG ; список стандартных сокращений грамматических категорий, широко используемых в лингвистике, можно найти в Лейпцигских правилах глоссирования.

Соответствие один-ко-многим . Когда одному элементу объектного языка соответствует несколько элементов метаязыка, они разделяются точками. [3] Например,

чик-мак

Come.out- ИНФ

çık-mak

come.out-INF

'выйти'

Неявные элементы . если толкование морфем за морфемами (средняя строка) содержит элемент, который не соответствует явному элементу в примере, стандартная стратегия состоит в том, чтобы включить явную букву «ø» в текст объектного языка, [3] что разделенные дефисом, как явный элемент, будут:

пуэр-о

мальчик-ном.sg

puer-ø

boy-nom.sg

'мальчик'

Редупликация рассматривается аналогично аффиксации, но с использованием тильды (вместо стандартного дефиса), соединяющей копируемый элемент с основой: [3]

би~били

ИПФВ ~купить

bi~bili

IPFV~buy

'покупает'

Пунктуация

В подстрочных морфологических глоссах глоссы разделяются различными формами пунктуации. Обычно слова соответствуют их толкованию; внутри слов дефис используется, когда граница обозначена как в тексте, так и в его глянце, период, когда граница появляется только в одном. То есть в тексте и его толковании должно быть одинаковое количество слов, разделенных пробелами, а также одинаковое количество дефисных морфем внутри слова и его толкования. Это базовая система, и ее можно применять универсально. Например,

Одадан Хызлы Чыктым. (Турецкий)

ода-дан

номер- ABL

комната-от

Хыз-ли

скорость- COM

скорость-с

чик-ты-м

go.out- ПФВ - 1сг

go_out-perfect-I

oda-dan hız-lı çık-tı-m

room-ABL speed-COM go.out-PFV-1sg

room-from speed-with go_out-perfective-I

— Я быстро вышел из комнаты.

Вместо точки можно использовать подчеркивание, как в go_out- PFV , когда одно слово на исходном языке соответствует фразе на языке глоссирования, хотя точка все равно будет использоваться в других ситуациях, например, в греческом oikíais . дом. ФЕМ.ПЛ.ДАТ 'в дома'.

Однако иногда можно провести более тонкие различия. Например, клитики могут быть разделены двойным дефисом (или, для удобства ввода, знаком равенства), а не дефисом:

Я тебя люблю. (Французский)

je⹀te⹀aime

Я тебя люблю

je⹀te⹀aime

I⹀you⹀love

'Я тебя люблю.'

Аффиксы, которые вызывают разрыв ( инфиксы , циркумфиксы , трансфиксы и т. д.), могут быть выделены угловыми скобками, а дублирование — тильдами, а не дефисами:

сулат, сусулат, сумулат, сумусулат (глагольные склонение) (тагальский)

Сулат

писать

су~сулат

созерцательное настроение~пиши

с ⟨ум⟩ улат

триггер агента .прошлое⟩ запись

с ⟨ум⟩ у~сулат

 ⟨триггер агента⟩ созерцательный~запись

sulat su~sulat s⟨um⟩ulat s⟨um⟩u~sulat

write contemplative mood~write agent trigger.past⟩write ⟨agent trigger⟩contemplative~write

( Другие примеры см. в аффиксе .)

Морфемы, которые нелегко отделить, например умлаут , могут быть отмечены обратной косой чертой, а не точкой:

unser-n

наш- DAT . ПЛ

Väter-n

отец \ PL - DAT . ПЛ

(Немецкий)

 

unser-n Väter-n

our-DAT.PL father\PL-DAT.PL

«нашим отцам» (единственное число слова Väter «отцы» — Vater )

Несколько других условностей, которые иногда встречаются, проиллюстрированы в Лейпцигских правилах глоссирования. [3]

Ресурсы по подстрочному глянцу

Были предприняты усилия по оцифровке IGT для сотен языков мира. [5]

Интернет-база данных подстрочного текста

Онлайн-база данных подстрочного текста (ODIN) представляет собой базу данных, содержащую более 200 000 экземпляров подстрочных глосс для более чем 1500 языков, извлеченных из научных лингвистических исследований. [6] База данных создавалась в два этапа: автоматическое построение с последующей ручной коррекцией. Сам этап автоматического строительства проходил в три этапа:

  1. Во-первых, поисковым системам (например, Google, Bing) было предложено найти научные документы, которые, вероятно, содержали подстрочные толкования. Запросы включали термины, имеющие отношение к лингвистическим исследованиям, такие как грамматические морфемы (например, «НОМ» — сокращение именительного падежа; «3SG» — сокращение третьего лица единственного числа).
  2. Во-вторых, каждая строка в извлеченном документе была помечена с учетом того, принадлежала ли она к подстрочному глоссу или нет, с использованием методов маркировки последовательностей из машинного обучения.
  3. В-третьих, каждому экземпляру подстрочного глосса было присвоено название языка (например, тагальский) и идентификатор языка ISO 693-3. Названия и идентификаторы языков автоматически присваивались подстрочным глоссам с использованием моделей разрешения кореференции из Natural Language Processing, где экземпляр подстрочного глосса был помечен названием языка (и идентификатором), которое появляется в научном документе, из которого был извлечен экземпляр подстрочного глосса. [6]

На этапе ручной коррекции создатели базы данных вручную корректировали границы экземпляров подстрочного блеска, обнаруженных методом маркировки последовательностей на этапе 2 этапа автоматического построения. Затем создатели проверили названия языков и языковые коды во втором и третьем проходе данных соответственно.

Автоматическая обработка экземпляров подстрочного глянца

Были разработаны модели обработки естественного языка, использующие ресурсы подстрочного глосса, такие как онлайн-база данных подстрочного текста. [7] [8]

Автоматическое глянцевание

Например, системы обработки естественного языка были разработаны для автоматического создания подстрочных толкований: [7]

ми-с

ты- ГЕН

Чумукули

верблюд

элу-аб-ок'ек'-аси

мы. ОБЛ - ЭРГ . 1 . PL -украсть- PRT

ану

быть. НЕГ

mi-s ħumukuli elu-ab-ok'ek'-asi anu

you-GEN camel we.OBL-ERG.1.PL-steal-PRT be.NEG

— Мы не крали твоего верблюда.

Учитывая сегментированную строку морфем (первая строка выше) и строку свободного перевода (третья строка выше), задача состоит в том, чтобы создать среднюю глянцевую строку, содержащую переводы основы (например, mi: you) и метки грамматических категорий, соответствующие аффиксам (например, mi : you ) и метки грамматических категорий, соответствующие аффиксам (например, mi: you). , а : ERG.1.PL ). Для выполнения этой задачи использовались модели прогнозирования последовательностей из обработки естественного языка. [7] Два фактора усложняют эту задачу:

  1. Перевод не обязательно соответствует морфемной сегментированной строке (например, верблюд — последнее слово в переводе, но второе слово в морфемной сегментированной строке).
  2. Некоторые слова в сегментированной строке морфем имеют несколько соответствий в глоссе (например, anu : be.NEG ).

Автоматическое определение морфологической структуры по глоссам

Исследователи использовали подстрочные глоссы для получения морфологических парадигм объектного языка (т. е. языка, который глоссируется). Чтобы автоматически создавать морфологические парадигмы из подстрочных глосс, исследователи создали таблицы для каждой основы в глоссе и (возможно, пустое) место для каждой грамматической категории (например, ERG) в глоссе. Например, учитывая приведенное ниже предложение: [7]

Вечер-ом

вечер- INS

да

1 . СГ . НОМ

победа-ла

запустить- PFV . ТИХООКЕАНСКОЕ СТАНДАРТНОЕ ВРЕМЯ . СГ . ФЭМ

в

в

журнал

магазин. АСС

Vecher-om ya pobeja-la v magazin

evening-INS 1.SG.NOM run-PFV.PST.SG.FEM in store.ACC

«Вечером я побежал в магазин».

Была бы парадигма для основы победы со слотами для PFV.PST.SG.FEM и PFV.PST.SG.MASC :

Слот для PFV.PST.SG.FEM будет заполнен (поскольку он наблюдался в данных подстрочного блеска), но слот для PFV.PST.SG.MASC будет пустым (при условии, что ни один другой экземпляр подстрочного блеска не содержит побега, измененного для грамматическая категория PFV.PST.SG.MASC ) . Для заполнения недостающих записей можно использовать статистическую модель машинного обучения для морфологического перегиба. [8] [9] [10] [11] [12]

Смотрите также

Рекомендации

  1. ^ Леманн, Кристиан (23 января 2004 г.). «Инструкции по подстрочному морфемному переводу». В Герте Буидже; Кристиан Леманн; Иоахим Мугдан; Ставрос Скопетеас (ред.). Морфология. Ein Internationales Handbuch zur Flexion und Wortbildung . Handbücher der Sprach- und Kommunikationswissenschaft. Том. 2. Берлин: В. де Грюйтер. стр. 1834–1857.
  2. ^ Хаспельмат, Мартин (2008). Типология языка и языковые универсалии: международный справочник . Вальтер де Грюйтер. п. 715. ИСБН 978-3-11-011423-2.
  3. ^ abcde Bickel, Бальтазар; Бернард Комри; Мартин Хаспельмат (февраль 2008 г.). «Лейпцигские правила глоссирования. Соглашения о подстрочной морфеме с помощью морфемных глосс». Кафедра лингвистики – Ресурсы – Правила глоссирования . Проверено 30 июня 2010 г.
  4. ^ Пример из «Базового словарного запаса тайваньского языка для начинающих», Ко Чек Хоан и Тан Пан Тин.
  5. ^ Джорджи, Райан (2016). От Аари до Зулу: массовое многоязычное создание языковых инструментов с использованием подстрочного глянцевого текста (доктор философии). Университет Вашингтона.
  6. ^ Аб Ся, Фэй; Льюис, Уильям; Уэйн, Майкл; Слейден, Гленн; Джорджи, Райан; Кроуги, Джошуа; Бендер, Эмили (2016). «Пополнение огромной многоязычной базы данных подстрочного глянцевого текста». Языковые ресурсы и оценка . 50 (2): 321–349. дои : 10.1007/s10579-015-9325-4. S2CID  2674996 . Проверено 15 декабря 2021 г.
  7. ^ abcd Синъюань, Чжао; Сатору, Одзаки; Анастасопулос, Антониос; Нойбиг, Грэм; Левин, Лори (2020). «Автоматическое подстрочное глоссирование для языков с ограниченными ресурсами, использующих переводы». ОХЛАЖДЕНИЕ . Материалы 28-й Международной конференции по компьютерной лингвистике: 5397–5408. doi : 10.18653/v1/2020.coling-main.471 . S2CID  227231816 . Проверено 15 декабря 2021 г.
  8. ^ аб Мёллер, Сара; Лю, Линг; Ян, Чанбин; Канн, Катарина; Халден, Ман (2020). «IG2P: от подстрочных глоссированных текстов к парадигмам». ЕМНЛП . Материалы конференции 2020 года по эмпирическим методам обработки естественного языка (EMNLP): 5251–5262. doi : 10.18653/v1/2020.emnlp-main.424 . S2CID  226262296 . Проверено 15 декабря 2021 г.
  9. ^ Сильфверберг, Миикка; Халден, Ман (2018). «Подход кодировщика-декодера к проблеме заполнения ячейки парадигмы». Материалы конференции 2018 года по эмпирическим методам обработки естественного языка . Брюссель, Бельгия: Ассоциация компьютерной лингвистики: 2883–2889. дои : 10.18653/v1/D18-1315 . S2CID  53082616.
  10. ^ Ву, Шицзе; Коттерелл, Райан; Халден, Ман (2021). «Применение Трансформатора к преобразованию на уровне персонажа». Материалы 16-й конференции Европейского отделения Ассоциации компьютерной лингвистики: основной том . Онлайн: Ассоциация компьютерной лингвистики: 1901–1907. arXiv : 2005.10213 . doi : 10.18653/v1/2021.eacl-main.163 . S2CID  218718982.
  11. ^ Николай, Гарретт; Черри, Колин; Кондрак, Гжегож (2015). «Генерация флексий как дискриминационная трансдукция строк». Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2015 года: технологии человеческого языка . Денвер, Колорадо: Ассоциация компьютерной лингвистики: 922–931. дои : 10.3115/v1/N15-1093 . S2CID  14929030.
  12. ^ Бхаргава, Адитья; Кондрак, Гжегож (2012). «Использование дополнительных представлений для последовательной трансдукции». Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2012 года: технологии человеческого языка . Монреаль, Канада: Ассоциация компьютерной лингвистики: 396–406.

Внешние ссылки