stringtranslate.com

Корпусная лингвистика

Корпусная лингвистика — это изучение языка в том виде, в котором этот язык выражается в его текстовом корпусе (множественном числе ), его теле текста «реального мира». Корпусная лингвистика предполагает, что надежный анализ языка более возможен с использованием корпусов, собранных в полевых условиях - естественном контексте («реалии») этого языка - с минимальным экспериментальным вмешательством. Большие коллекции текста позволяют лингвистам проводить количественный анализ лингвистических концепций, которые в противном случае труднее оценить количественно. [1]

Метод текстового корпуса использует тексты, написанные на любом естественном языке, для получения набора абстрактных правил, которые управляют этим языком. Эти результаты можно использовать для изучения отношений между этим изучаемым языком и другими языками, подвергшимися аналогичному анализу. Первые такие корпуса создавались вручную на основе исходных текстов, но сейчас эта работа автоматизирована.

Corpora использовались не только для лингвистических исследований, но и для составления словарей (начиная со словаря английского языка «Американское наследие» в 1969 году) и руководств по грамматике, таких как « Всесторонняя грамматика английского языка» , опубликованного в 1985 году.

Эксперты в этой области имеют разные точки зрения на аннотацию корпуса. Эти взгляды варьируются от Джона МакХарди Синклера , который выступает за минимальное количество аннотаций, чтобы тексты говорили сами за себя, [2] до группы по исследованию использования английского языка ( Университетский колледж , Лондон), которая выступает за аннотации как средство, позволяющее лучше понять язык посредством тщательной записи. [3]

История

Некоторые из самых ранних попыток грамматического описания были основаны, по крайней мере частично, на корпусах, имеющих особое религиозное или культурное значение. Например, литература Пратишакхья описывала звуковые модели санскрита , найденные в Ведах , а грамматика классического санскрита Панини была основана, по крайней мере частично, на анализе того же корпуса. Точно так же ранние арабские грамматики уделяли особое внимание языку Корана . В западноевропейской традиции ученые готовили симфонии , позволяющие детально изучить язык Библии и других канонических текстов.

английский корпус

Вехой в современной корпусной лингвистике стала публикация « Компьютерного анализа современного американского английского языка» в 1967 году. Написанная Генри Кучерой и У. Нельсоном Фрэнсисом , работа была основана на анализе Коричневого корпуса , который представлял собой современную компиляцию около миллион слов американского английского языка, тщательно отобранных из самых разных источников. [4] Корпус Брауна был первым компьютеризированным корпусом, предназначенным для лингвистических исследований. [5] Кучера и Фрэнсис подвергли Коричневый корпус множеству компьютерного анализа, а затем объединили элементы лингвистики, преподавания языков, психологии , статистики и социологии, чтобы создать богатый и разнообразный опус. Еще одной ключевой публикацией была книга Рэндольфа Квирка «К описанию использования английского языка» в 1960 году [6] , в которой он представил «Обзор использования английского языка» . Корпус Квирка был первым современным корпусом, созданным с целью представления всего языка. [7]

Вскоре после этого бостонское издательство Houghton-Mifflin обратилось к Кучере с просьбой предоставить трехстрочную базу цитирования из миллиона слов для его нового словаря американского наследия , первого словаря, составленного с использованием корпусной лингвистики. AHD предпринял инновационный шаг, объединив предписывающие элементы (как следует использовать язык ) с описательной информацией (как он на самом деле используется ).

Другие издатели последовали этому примеру. Одноязычный словарь для учащихся COBUILD британского издателя Collins , предназначенный для пользователей, изучающих английский как иностранный , был составлен с использованием Bank of English . Корпус исследования использования английского языка использовался при разработке одной из наиболее важных грамматик на основе корпуса, написанной Quirk et al. и опубликовано в 1985 году под названием «Всеобъемлющая грамматика английского языка» . [8]

Коричневый корпус также породил ряд корпусов с аналогичной структурой: LOB Corpus ( британский английский 1960-х годов ), Kolhapur ( индийский английский ), Wellington ( новозеландский английский ), Австралийский корпус английского языка ( австралийский английский ), Frown Corpus (начало 1990-х). американский английский ) и FLOB Corpus (британский английский 1990-х годов). Другие корпуса представляют множество языков, разновидностей и модусов и включают Международный корпус английского языка и Британский национальный корпус , коллекцию из 100 миллионов слов различных устных и письменных текстов, созданную в 1990-х годах консорциумом издателей, университетов ( Оксфорд и Ланкастер ) и Британская библиотека . Что касается современного американского английского, работа над Американским национальным корпусом застопорилась , но Корпус современного американского английского языка, насчитывающий более 400 миллионов слов (с 1990 года по настоящее время), теперь доступен через веб-интерфейс.

Первый компьютеризированный корпус транскрибируемой разговорной речи был создан в 1971 году в рамках Монреальского французского проекта [9] и содержал один миллион слов, что вдохновило Шану Поплак на создание гораздо большего корпуса разговорного французского языка в районе Оттава-Халл. [10]

Многоязычная корпорация

В 1990-е годы многие из первых заметных успехов статистических методов программирования на естественном языке (НЛП) были достигнуты в области машинного перевода , в частности благодаря работе в IBM Research. Эти системы смогли воспользоваться преимуществами существующих многоязычных текстовых корпусов , которые были созданы Парламентом Канады и Европейским Союзом в результате принятия законов, требующих перевода всех правительственных процедур на все официальные языки соответствующих систем управления.

Есть корпуса и на неевропейских языках. Например, Национальный институт японского языка и лингвистики в Японии создал ряд корпусов устного и письменного японского языка. Корпуса языка жестов также были созданы с использованием видеоданных. [11]

Корпуса древних языков

Помимо этих корпусов живых языков, компьютеризированные корпуса также были созданы из коллекций текстов на древних языках. Примером может служить база данных еврейской Библии Андерсена -Форбса, разрабатываемая с 1970-х годов, в которой каждое предложение анализируется с использованием графиков, представляющих до семи уровней синтаксиса, и каждый сегмент помечен семью полями информации. [12] [13] Корпус Корана на арабском языке представляет собой аннотированный корпус Корана на классическом арабском языке . Это недавний проект с несколькими уровнями аннотаций, включая морфологическую сегментацию, разметку частей речи и синтаксический анализ с использованием грамматики зависимостей. [14] Цифровой корпус санскрита (DCS) — это «корпус санскритских текстов, разделенный по принципу Сандхи, с полным морфологическим и лексическим анализом... предназначенный для историко-текстовых исследований в области санскритской лингвистики и филологии». [15]

Корпора из конкретных областей

Помимо чисто лингвистических исследований, исследователи начали применять корпусную лингвистику в других академических и профессиональных областях, таких как развивающаяся субдисциплина права и корпусная лингвистика , которая стремится понять юридические тексты с использованием корпусных данных и инструментов. Набор данных DBLP Discovery посвящен информатике и содержит соответствующие публикации по информатике с важными метаданными, такими как принадлежность авторов, цитаты или области исследований. [16] Более сфокусированный набор данных был представлен NLP Scholar, представляющим собой комбинацию статей ACL Anthology и метаданных Google Scholar . [17] Corpora также может помочь в переводе [18] или в преподавании иностранных языков. [19]

Методы

Корпусная лингвистика породила ряд исследовательских методов, которые пытаются проследить путь от данных к теории. Уоллис и Нельсон (2001) [20] впервые представили то, что они назвали перспективой 3А: аннотация, абстракция и анализ.

Сегодня большинство лексических корпусов имеют теги частей речи (POS-теги). Однако даже корпусные лингвисты, работающие с «неаннотированным открытым текстом», неизбежно применяют тот или иной метод для выделения важных терминов. В таких ситуациях аннотация и абстракция объединяются в лексическом поиске.

Преимущество публикации аннотированного корпуса состоит в том, что другие пользователи могут затем проводить эксперименты с корпусом (через менеджеров корпуса ). Эту работу могут использовать лингвисты с другими интересами и точками зрения, отличными от взглядов авторов. Обмениваясь данными, корпусные лингвисты могут рассматривать корпус как место лингвистических дебатов и дальнейших исследований. [21]

Смотрите также

Примечания и ссылки

  1. ^ Ханстон, С. (1 января 2006 г.), Браун, Кейт (редактор), «Корпус лингвистики», Энциклопедия языка и лингвистики (второе издание) , Оксфорд: Elsevier, стр. 234–248, doi : 10.1016/b0- 08-044854-2/00944-5, ISBN 978-0-08-044854-1, получено 31 октября 2023 г.
  2. ^ Синклер, Дж. «Автоматический анализ корпусов», в Свартвик, Дж. (ред.) Направления корпусной лингвистики (Материалы Нобелевского симпозиума 82) . Берлин: Мутон де Грюйтер. 1992.
  3. ^ Уоллис, С. «Аннотация, поиск и экспериментирование», в Меурман-Солин, А. и Нурми, А.А. (ред.). Аннотирование вариаций и изменений. Хельсинки: Вариенг, [Хельсинкский университет]. 2007. Электронное издание.
  4. ^ Фрэнсис, В. Нельсон; Кучера, Генри (1 июня 1967 г.). Компьютерный анализ современного американского английского . Провиденс: Издательство Университета Брауна. ISBN 978-0870571053.
  5. ^ Кеннеди, Г. (1 января 2001 г.), Смелзер, Нил Дж.; Балтес, Пол Б. (ред.), «Корпусная лингвистика», Международная энциклопедия социальных и поведенческих наук , Оксфорд: Пергамон, стр. 2816–2820, ISBN 978-0-08-043076-8, получено 31 октября 2023 г.
  6. ^ Квирк, Рэндольф (ноябрь 1960 г.). «К описанию использования английского языка». Труды Филологического общества . 59 (1): 40–61. doi :10.1111/j.1467-968X.1960.tb00308.x.
  7. ^ Кеннеди, Г. (1 января 2001 г.), Смелзер, Нил Дж.; Балтес, Пол Б. (ред.), «Корпусная лингвистика», Международная энциклопедия социальных и поведенческих наук , Оксфорд: Пергамон, стр. 2816–2820, doi : 10.1016/b0-08-043076-7/03056-4, ISBN 978-0-08-043076-8, получено 31 октября 2023 г.
  8. ^ Квирк, Рэндольф; Гринбаум, Сидней; Лич, Джеффри; Свартвик, Ян (1985). Комплексная грамматика английского языка . Лондон: Лонгман. ISBN 978-0582517349.
  9. ^ Санкофф, Дэвид; Санкофф, Джиллиан (1973). Дарнелл, Р. (ред.). «Методы выборочного опроса и компьютерный анализ при изучении грамматических вариаций». Канадские языки в их социальном контексте . Эдмонтон: Linguistic Research Incorporated: 7–63.
  10. ^ Поплак, Шана (1989). Фасолд, Р.; Шиффрин, Д. (ред.). «Уход за мегакорпусом и обращение с ним». Языковые изменения и вариации . Актуальные проблемы лингвистической теории. Амстердам: Бенджаминс. 52 : 411–451. дои : 10.1075/cilt.52.25pop. ISBN 978-90-272-3546-6.
  11. ^ «Национальный центр ресурсов языка жестов и жестов при BU» www.bu.edu . Проверено 31 октября 2023 г.
  12. ^ Андерсен, Фрэнсис I.; Форбс, А. Дин (2003), «Визуализация грамматики иврита: I. Синтаксис», Древние исследования Ближнего Востока , том. 40, стр. 43–61 [45]
  13. ^ Эйланд, Э. Энн (1987), «Откровения из подсчета слов», в Ньюинге, Эдвард Г.; Конрад, Эдгар В. (ред.), Перспективы языка и текста: очерки и стихи в честь шестидесятилетия Фрэнсиса И. Андерсена, 28 июля 1985 г. , Вайнона Лейк, IN: Eisenbrauns , стр. 51, ISBN 0-931464-26-9
  14. ^ Дьюкс, К., Этвелл, Э. и Хабаш, Н. «Контролируемое сотрудничество в области синтаксических аннотаций арабского языка Корана». Языковые ресурсы и журнал оценки . 2011.
  15. ^ "Цифровой корпус санскрита (DCS)" . Проверено 28 июня 2022 г.
  16. ^ Вале, Ян Филип; Руас, Терри; Мохаммед, Саиф; Гипп, Бела (2022). «D3: Массивный набор научных метаданных для анализа состояния исследований в области компьютерных наук». Материалы тринадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 2642–2651. arXiv : 2204.13384 .
  17. ^ Мохаммад, Саиф М. (2020). «Ученый НЛП: набор данных для изучения состояния исследований НЛП». Материалы двенадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 868–877. ISBN 979-10-95546-34-4.
  18. ^ Бернардини, С. (1 января 2006 г.), Браун, Кейт (редактор), «Машиночитаемая корпорация», Энциклопедия языка и лингвистики (второе издание) , Оксфорд: Elsevier, стр. 358–375, doi : 10.1016/b0 -08-044854-2/00476-4, ISBN 978-0-08-044854-1, получено 31 октября 2023 г.
  19. ^ Майнц, Университет Иоганна Гутенберга. «Корпусная лингвистика | АНГЛИЙСКАЯ ЛИНГВИСТИКА». Йоханнес Гутенберг-Университет Майнца (на немецком языке) . Проверено 31 октября 2023 г.
  20. ^ Уоллис, С. и Нельсон Г. Открытие знаний в грамматически проанализированных корпусах . Интеллектуальный анализ данных и обнаружение знаний , 5 : 307–340. 2001.
  21. ^ Бейкер, Пол; Эгберт, Джесси, ред. (2016). Триангуляция методологических подходов в корпусно-лингвистических исследованиях . Нью-Йорк: Рутледж.

дальнейшее чтение

Книги

Серия книг

Серии книг в этой области включают:

Журналы

Есть несколько международных рецензируемых журналов, посвященных корпусной лингвистике, например:

Внешние ссылки