Корпусная лингвистика — это эмпирический метод изучения языка с помощью текстовых корпусов (множественное число корпусов ). [1] Корпуса — это сбалансированные, часто стратифицированные коллекции аутентичных, «реальных» текстов речи или письма, которые призваны представлять заданное языковое разнообразие . [1] Сегодня корпуса, как правило, представляют собой машиночитаемые коллекции данных.
Корпусная лингвистика предполагает, что надежный анализ языка более осуществим с корпусами, собранными в полевых условиях — естественный контекст («реалии») этого языка — с минимальным экспериментальным вмешательством. Большие коллекции текстов, хотя корпусы также могут быть небольшими с точки зрения бегущих слов, позволяют лингвистам проводить количественный анализ языковых концепций, которые может быть трудно проверить качественно. [2]
Метод текстового корпуса использует корпус текстов на любом естественном языке для выведения набора абстрактных правил, которые управляют этим языком. Эти результаты могут быть использованы для изучения взаимосвязей между этим предметным языком и другими языками, которые подверглись аналогичному анализу. Первые такие корпуса были получены вручную из исходных текстов, но теперь эта работа автоматизирована.
Корпуса использовались не только для лингвистических исследований, с 1969 года они все чаще использовались для составления словарей (начиная с The American Heritage Dictionary of the English Language, вышедшего в 1969 году) и справочных грамматик, первой из которых стала A Comprehensive Grammar of the English Language , опубликованная в 1985 году.
Эксперты в этой области имеют разные взгляды на аннотацию корпуса. Эти взгляды варьируются от Джона Макхарди Синклера , который выступает за минимальную аннотацию, чтобы тексты говорили сами за себя, [3] до команды Survey of English Usage ( Университетский колледж , Лондон), которая выступает за аннотацию, поскольку она позволяет лучше понимать язык посредством строгой записи. [4]
Некоторые из самых ранних попыток грамматического описания основывались, по крайней мере, частично, на корпусах, имеющих особое религиозное или культурное значение. Например, литература Пратишакхья описывала звуковые модели санскрита , найденные в Ведах , а грамматика классического санскрита Панини основывалась, по крайней мере, частично на анализе того же корпуса. Аналогично, ранние арабские грамматисты уделяли особое внимание языку Корана . В западноевропейской традиции ученые составляли конкордансы, чтобы обеспечить детальное изучение языка Библии и других канонических текстов.
Знаковым событием в современной корпусной лингвистике стала публикация Computational Analysis of Contemporary-Day American English в 1967 году. Написанная Генри Кучерой и У. Нельсоном Фрэнсисом , работа была основана на анализе Brown Corpus , который представляет собой структурированный и сбалансированный корпус из одного миллиона слов американского английского с 1961 года. Корпус включает 2000 текстовых образцов из различных жанров. [5] Brown Corpus был первым компьютеризированным корпусом, разработанным для лингвистических исследований. [6] Кучера и Фрэнсис подвергли Brown Corpus различным вычислительным анализам, а затем объединили элементы лингвистики, преподавания языка, психологии , статистики и социологии, чтобы создать богатый и разнообразный опус. Еще одной ключевой публикацией стала работа Рэндольфа Квирка «Towards a description of English Usage» в 1960 году [7] , в которой он представил Survey of English Usage . Корпус Квирка был первым современным корпусом, созданным с целью представления всего языка. [8]
Вскоре после этого бостонское издательство Houghton-Mifflin обратилось к Кучере с просьбой предоставить базу цитат из миллиона слов в три строки для своего нового словаря American Heritage Dictionary , первого словаря, составленного с использованием корпусной лингвистики. AHD предпринял инновационный шаг, объединив предписывающие элементы (как язык должен использоваться) с описательной информацией (как он фактически используется ).
Другие издатели последовали примеру. Британский издательский словарь COBUILD , предназначенный для пользователей, изучающих английский как иностранный , был составлен с использованием Bank of English . Survey of English Usage Corpus использовался при разработке одной из самых важных грамматик на основе корпуса, написанной Квирком и др. и опубликованной в 1985 году под названием A Comprehensive Grammar of the English Language . [9]
Корпус Брауна также породил ряд корпусов с похожей структурой: LOB Corpus ( британский английский 1960-х годов ), Kolhapur ( индийский английский ), Wellington ( новозеландский английский ), Australian Corpus of English ( австралийский английский ), Frown Corpus ( американский английский начала 1990-х годов ) и FLOB Corpus (британский английский 1990-х годов). Другие корпуса представляют множество языков, разновидностей и режимов, и включают Международный корпус английского языка и Британский национальный корпус , коллекцию из 100 миллионов слов различных устных и письменных текстов, созданную в 1990-х годах консорциумом издателей, университетов ( Оксфорд и Ланкастер ) и Британской библиотекой . Для современного американского английского работа над Американским национальным корпусом застопорилась , но Корпус современного американского английского языка объемом более 400 миллионов слов (1990–настоящее время) теперь доступен через веб-интерфейс.
Первый компьютеризированный корпус транскрибированной устной речи был создан в 1971 году в рамках Монреальского французского проекта [10] , содержащий один миллион слов, что вдохновило Шану Поплак на создание гораздо большего корпуса разговорного французского языка в районе Оттавы и Халла. [11]
В 1990-х годах многие из заметных ранних успехов статистических методов в программировании на естественном языке (NLP) были достигнуты в области машинного перевода , в частности, благодаря работе в IBM Research. Эти системы смогли воспользоваться существующими многоязычными текстовыми корпусами , которые были созданы парламентом Канады и Европейским союзом в результате законов, требующих перевода всех правительственных протоколов на все официальные языки соответствующих систем государственного управления.
Существуют также корпуса неевропейских языков. Например, Национальный институт японского языка и лингвистики в Японии создал ряд корпусов устного и письменного японского языка. Корпуса языка жестов также были созданы с использованием видеоданных. [12]
Помимо этих корпусов живых языков, компьютеризированные корпуса также были сделаны из коллекций текстов на древних языках. Примером является база данных Andersen -Forbes еврейской Библии, разработанная с 1970-х годов, в которой каждое предложение разбирается с использованием графов, представляющих до семи уровней синтаксиса, и каждый сегмент помечен семью полями информации. [13] [14] Коранический арабский корпус является аннотированным корпусом для классического арабского языка Корана . Это недавний проект с несколькими слоями аннотации, включая морфологическую сегментацию, разметку частей речи и синтаксический анализ с использованием грамматики зависимостей. [15] Цифровой корпус санскрита (DCS) является «корпусом санскритских текстов, разделенным на сандхи, с полным морфологическим и лексическим анализом... разработанным для текстово-исторических исследований в санскритской лингвистике и филологии». [16]
Помимо чисто лингвистических исследований, исследователи начали применять корпусную лингвистику в других академических и профессиональных областях, таких как новая субдисциплина права и корпусной лингвистики , которая стремится понимать юридические тексты с использованием корпусных данных и инструментов. Набор данных DBLP Discovery сосредоточен на информатике , содержа релевантные публикации по информатике с разумными метаданными, такими как авторская принадлежность, цитаты или области изучения. [17] Более сфокусированный набор данных был представлен NLP Scholar, сочетанием статей ACL Anthology и метаданных Google Scholar . [18] Корпусы также могут помочь в переводческих усилиях [19] или в обучении иностранным языкам. [20]
Корпусная лингвистика создала ряд исследовательских методов, которые пытаются проследить путь от данных к теории. Уоллис и Нельсон (2001) [21] впервые представили то, что они назвали перспективой 3A: аннотация, абстракция и анализ.
Большинство лексических корпусов сегодня имеют теги частей речи (POS-теги). Однако даже корпусные лингвисты, работающие с «неаннотированным простым текстом», неизбежно применяют какой-либо метод для выделения значимых терминов. В таких ситуациях аннотация и абстракция объединяются в лексическом поиске.
Преимущество публикации аннотированного корпуса заключается в том, что другие пользователи могут затем проводить эксперименты с корпусом (через менеджеров корпусов ). Лингвисты с другими интересами и точками зрения, отличными от точек зрения создателей, могут использовать эту работу. Обмениваясь данными, лингвисты, занимающиеся корпусами, могут рассматривать корпус как локус лингвистических дебатов и дальнейшего изучения. [22]
Серии книг в этой области включают:
Существует несколько международных рецензируемых журналов, посвященных корпусной лингвистике, например: