stringtranslate.com

Корпусная лингвистика

Корпусная лингвистика — это эмпирический метод изучения языка с помощью текстовых корпусов (множественное число корпусов ). [1] Корпуса — это сбалансированные, часто стратифицированные коллекции аутентичных, «реальных» текстов речи или письма, которые призваны представлять заданное языковое разнообразие . [1] Сегодня корпуса, как правило, представляют собой машиночитаемые коллекции данных.

Корпусная лингвистика предполагает, что надежный анализ языка более осуществим с корпусами, собранными в полевых условиях — естественный контекст («реалии») этого языка — с минимальным экспериментальным вмешательством. Большие коллекции текстов, хотя корпусы также могут быть небольшими с точки зрения бегущих слов, позволяют лингвистам проводить количественный анализ языковых концепций, которые может быть трудно проверить качественно. [2]

Метод текстового корпуса использует корпус текстов на любом естественном языке для выведения набора абстрактных правил, которые управляют этим языком. Эти результаты могут быть использованы для изучения взаимосвязей между этим предметным языком и другими языками, которые подверглись аналогичному анализу. Первые такие корпуса были получены вручную из исходных текстов, но теперь эта работа автоматизирована.

Корпуса использовались не только для лингвистических исследований, с 1969 года они все чаще использовались для составления словарей (начиная с The American Heritage Dictionary of the English Language, вышедшего в 1969 году) и справочных грамматик, первой из которых стала A Comprehensive Grammar of the English Language , опубликованная в 1985 году.

Эксперты в этой области имеют разные взгляды на аннотацию корпуса. Эти взгляды варьируются от Джона Макхарди Синклера , который выступает за минимальную аннотацию, чтобы тексты говорили сами за себя, [3] до команды Survey of English Usage ( Университетский колледж , Лондон), которая выступает за аннотацию, поскольку она позволяет лучше понимать язык посредством строгой записи. [4]

История

Некоторые из самых ранних попыток грамматического описания основывались, по крайней мере, частично, на корпусах, имеющих особое религиозное или культурное значение. Например, литература Пратишакхья описывала звуковые модели санскрита , найденные в Ведах , а грамматика классического санскрита Панини основывалась, по крайней мере, частично на анализе того же корпуса. Аналогично, ранние арабские грамматисты уделяли особое внимание языку Корана . В западноевропейской традиции ученые составляли конкордансы, чтобы обеспечить детальное изучение языка Библии и других канонических текстов.

английский корпус

Знаковым событием в современной корпусной лингвистике стала публикация Computational Analysis of Contemporary-Day American English в 1967 году. Написанная Генри Кучерой и У. Нельсоном Фрэнсисом , работа была основана на анализе Brown Corpus , который представляет собой структурированный и сбалансированный корпус из одного миллиона слов американского английского с 1961 года. Корпус включает 2000 текстовых образцов из различных жанров. [5] Brown Corpus был первым компьютеризированным корпусом, разработанным для лингвистических исследований. [6] Кучера и Фрэнсис подвергли Brown Corpus различным вычислительным анализам, а затем объединили элементы лингвистики, преподавания языка, психологии , статистики и социологии, чтобы создать богатый и разнообразный опус. Еще одной ключевой публикацией стала работа Рэндольфа Квирка «Towards a description of English Usage» в 1960 году [7] , в которой он представил Survey of English Usage . Корпус Квирка был первым современным корпусом, созданным с целью представления всего языка. [8]

Вскоре после этого бостонское издательство Houghton-Mifflin обратилось к Кучере с просьбой предоставить базу цитат из миллиона слов в три строки для своего нового словаря American Heritage Dictionary , первого словаря, составленного с использованием корпусной лингвистики. AHD предпринял инновационный шаг, объединив предписывающие элементы (как язык должен использоваться) с описательной информацией (как он фактически используется ).

Другие издатели последовали примеру. Британский издательский словарь COBUILD , предназначенный для пользователей, изучающих английский как иностранный , был составлен с использованием Bank of English . Survey of English Usage Corpus использовался при разработке одной из самых важных грамматик на основе корпуса, написанной Квирком и др. и опубликованной в 1985 году под названием A Comprehensive Grammar of the English Language . [9]

Корпус Брауна также породил ряд корпусов с похожей структурой: LOB Corpus ( британский английский 1960-х годов ), Kolhapur ( индийский английский ), Wellington ( новозеландский английский ), Australian Corpus of English ( австралийский английский ), Frown Corpus ( американский английский начала 1990-х годов ) и FLOB Corpus (британский английский 1990-х годов). Другие корпуса представляют множество языков, разновидностей и режимов, и включают Международный корпус английского языка и Британский национальный корпус , коллекцию из 100 миллионов слов различных устных и письменных текстов, созданную в 1990-х годах консорциумом издателей, университетов ( Оксфорд и Ланкастер ) и Британской библиотекой . Для современного американского английского работа над Американским национальным корпусом застопорилась , но Корпус современного американского английского языка объемом более 400 миллионов слов (1990–настоящее время) теперь доступен через веб-интерфейс.

Первый компьютеризированный корпус транскрибированной устной речи был создан в 1971 году в рамках Монреальского французского проекта [10] , содержащий один миллион слов, что вдохновило Шану Поплак на создание гораздо большего корпуса разговорного французского языка в районе Оттавы и Халла. [11]

Многоязычные корпуса

В 1990-х годах многие из заметных ранних успехов статистических методов в программировании на естественном языке (NLP) были достигнуты в области машинного перевода , в частности, благодаря работе в IBM Research. Эти системы смогли воспользоваться существующими многоязычными текстовыми корпусами , которые были созданы парламентом Канады и Европейским союзом в результате законов, требующих перевода всех правительственных протоколов на все официальные языки соответствующих систем государственного управления.

Существуют также корпуса неевропейских языков. Например, Национальный институт японского языка и лингвистики в Японии создал ряд корпусов устного и письменного японского языка. Корпуса языка жестов также были созданы с использованием видеоданных. [12]

Корпуса древних языков

Помимо этих корпусов живых языков, компьютеризированные корпуса также были сделаны из коллекций текстов на древних языках. Примером является база данных Andersen -Forbes еврейской Библии, разработанная с 1970-х годов, в которой каждое предложение разбирается с использованием графов, представляющих до семи уровней синтаксиса, и каждый сегмент помечен семью полями информации. [13] [14] Коранический арабский корпус является аннотированным корпусом для классического арабского языка Корана . Это недавний проект с несколькими слоями аннотации, включая морфологическую сегментацию, разметку частей речи и синтаксический анализ с использованием грамматики зависимостей. [15] Цифровой корпус санскрита (DCS) является «корпусом санскритских текстов, разделенным на сандхи, с полным морфологическим и лексическим анализом... разработанным для текстово-исторических исследований в санскритской лингвистике и филологии». [16]

Корпуса из определенных областей

Помимо чисто лингвистических исследований, исследователи начали применять корпусную лингвистику в других академических и профессиональных областях, таких как новая субдисциплина права и корпусной лингвистики , которая стремится понимать юридические тексты с использованием корпусных данных и инструментов. Набор данных DBLP Discovery сосредоточен на информатике , содержа релевантные публикации по информатике с разумными метаданными, такими как авторская принадлежность, цитаты или области изучения. [17] Более сфокусированный набор данных был представлен NLP Scholar, сочетанием статей ACL Anthology и метаданных Google Scholar . [18] Корпусы также могут помочь в переводческих усилиях [19] или в обучении иностранным языкам. [20]

Методы

Корпусная лингвистика создала ряд исследовательских методов, которые пытаются проследить путь от данных к теории. Уоллис и Нельсон (2001) [21] впервые представили то, что они назвали перспективой 3A: аннотация, абстракция и анализ.

Большинство лексических корпусов сегодня имеют теги частей речи (POS-теги). Однако даже корпусные лингвисты, работающие с «неаннотированным простым текстом», неизбежно применяют какой-либо метод для выделения значимых терминов. В таких ситуациях аннотация и абстракция объединяются в лексическом поиске.

Преимущество публикации аннотированного корпуса заключается в том, что другие пользователи могут затем проводить эксперименты с корпусом (через менеджеров корпусов ). Лингвисты с другими интересами и точками зрения, отличными от точек зрения создателей, могут использовать эту работу. Обмениваясь данными, лингвисты, занимающиеся корпусами, могут рассматривать корпус как локус лингвистических дебатов и дальнейшего изучения. [22]

Смотрите также

Примечания и ссылки

  1. ^ ab Meyer, Charles F. (2023). English Corpus Linguistics (2-е изд.). Кембридж: Cambridge University Press. стр. 4.
  2. Ханстон, С. (1 января 2006 г.), «Корпусная лингвистика», в книге Брауна, Кейта (ред.), Энциклопедия языка и лингвистики (второе издание) , Оксфорд: Elsevier, стр. 234–248, doi :10.1016/b0-08-044854-2/00944-5, ISBN 978-0-08-044854-1, получено 31 октября 2023 г.
  3. ^ Синклер, Дж. «Автоматический анализ корпусов», в Свартвик, Дж. (ред.) Направления в корпусной лингвистике (Труды Нобелевского симпозиума 82) . Берлин: Mouton de Gruyter. 1992.
  4. ^ Уоллис, С. «Аннотация, поиск и эксперимент», в Meurman-Solin, A. & Nurmi, AA (ред.) Annotating Variation and Change. Хельсинки: Varieng, [Университет Хельсинки]. 2007. Электронная публикация
  5. ^ Фрэнсис, В. Нельсон; Кучера, Генри (1 июня 1967 г.). Вычислительный анализ современного американского варианта английского языка . Провиденс: Brown University Press. ISBN 978-0870571053.
  6. Кеннеди, Г. (1 января 2001 г.), «Корпусная лингвистика», в Смелсер, Нил Дж.; Балтес, Пол Б. (ред.), Международная энциклопедия социальных и поведенческих наук , Оксфорд: Pergamon, стр. 2816–2820, ISBN 978-0-08-043076-8, получено 31 октября 2023 г.
  7. Куирк, Рэндольф (ноябрь 1960 г.). «К описанию английского использования». Труды филологического общества . 59 (1): 40–61. doi :10.1111/j.1467-968X.1960.tb00308.x.
  8. Кеннеди, Г. (1 января 2001 г.), «Корпусная лингвистика», в Смелсер, Нил Дж.; Балтес, Пол Б. (ред.), Международная энциклопедия социальных и поведенческих наук , Оксфорд: Pergamon, стр. 2816–2820, doi :10.1016/b0-08-043076-7/03056-4, ISBN 978-0-08-043076-8, получено 31 октября 2023 г.
  9. ^ Куирк, Рэндольф; Гринбаум, Сидней; Лич, Джеффри; Свартвик, Ян (1985). Всеобъемлющая грамматика английского языка . Лондон: Longman. ISBN 978-0582517349.
  10. ^ Санкофф, Дэвид; Санкофф, Джиллиан (1973). Дарнелл, Р. (ред.). «Методы выборочного обследования и компьютерный анализ в изучении грамматической вариативности». Канадские языки в их социальном контексте . Эдмонтон: Linguistic Research Incorporated: 7–63.
  11. ^ Poplack, Shana (1989). Fasold, R.; Schiffrin, D. (ред.). «Уход и обращение с мегакорпусом». Language Change and Variation . Current Issues in Linguistic Theory. 52. Amsterdam: Benjamins: 411–451. doi :10.1075/cilt.52.25pop. ISBN 978-90-272-3546-6.
  12. ^ "Национальный центр ресурсов языка жестов и жестов в BU" www.bu.edu . Получено 31 октября 2023 г. .
  13. ^ Андерсен, Фрэнсис И.; Форбс, А. Дин (2003), «Визуализация грамматики иврита: I. Синтаксис», Ancient Near Eastern Studies , т. 40, стр. 43–61 [45]
  14. ^ Эйланд, Э. Энн (1987), «Откровения от количества слов», в Newing, Эдвард Г.; Конрад, Эдгар В. (ред.), Перспективы языка и текста: эссе и поэмы в честь шестидесятилетия Фрэнсиса И. Андерсена, 28 июля 1985 г. , Winona Lake, IN: Eisenbrauns , стр. 51, ISBN 0-931464-26-9
  15. ^ Дьюкс, К., Этвелл, Э. и Хабаш, Н. «Контролируемое сотрудничество для синтаксической аннотации коранического арабского языка». Журнал языковых ресурсов и оценки . 2011.
  16. ^ "Цифровой корпус санскрита (DCS)" . Получено 28 июня 2022 г. .
  17. ^ Вахле, Ян Филип; Руас, Терри; Мохаммад, Саиф; Гипп, Бела (2022). «D3: Массивный набор научных метаданных для анализа состояния исследований в области компьютерных наук». Труды Тринадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 2642–2651. arXiv : 2204.13384 .
  18. ^ Мохаммад, Саиф М. (2020). «NLP Scholar: набор данных для изучения состояния исследований NLP». Труды Двенадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 868–877. ISBN 979-10-95546-34-4.
  19. ^ Бернардини, С. (1 января 2006 г.), «Машинночитаемые корпуса», в Браун, Кейт (ред.), Энциклопедия языка и лингвистики (второе издание) , Оксфорд: Elsevier, стр. 358–375, doi :10.1016/b0-08-044854-2/00476-4, ISBN 978-0-08-044854-1, получено 31 октября 2023 г.
  20. ^ Майнц, Университет Иоганна Гутенберга. «Корпусная лингвистика | АНГЛИЙСКАЯ ЛИНГВИСТИКА». Йоханнес Гутенберг-Университет Майнца (на немецком языке) . Проверено 31 октября 2023 г.
  21. ^ Уоллис, С. и Нельсон Г. Обнаружение знаний в грамматически проанализированных корпусах . Data Mining and Knowledge Discovery , 5 : 307–340. 2001.
  22. ^ Бейкер, Пол; Эгберт, Джесси, ред. (2016). Триангуляция методологических подходов в корпусно-лингвистических исследованиях . Нью-Йорк: Routledge.

Дальнейшее чтение

Книги

Серия книг

Серии книг в этой области включают:

Журналы

Существует несколько международных рецензируемых журналов, посвященных корпусной лингвистике, например:

Внешние ссылки