Корпусная лингвистика — это изучение языка в том виде, в котором этот язык выражается в его текстовом корпусе (множественном числе ), его теле текста «реального мира». Корпусная лингвистика предполагает, что надежный анализ языка более возможен с использованием корпусов, собранных в полевых условиях - естественном контексте («реалии») этого языка - с минимальным экспериментальным вмешательством. Большие коллекции текста позволяют лингвистам проводить количественный анализ лингвистических концепций, которые в противном случае труднее оценить количественно. [1]
Метод текстового корпуса использует тексты, написанные на любом естественном языке, для получения набора абстрактных правил, которые управляют этим языком. Эти результаты можно использовать для изучения отношений между этим изучаемым языком и другими языками, подвергшимися аналогичному анализу. Первые такие корпуса создавались вручную на основе исходных текстов, но сейчас эта работа автоматизирована.
Corpora использовались не только для лингвистических исследований, но и для составления словарей (начиная со словаря английского языка «Американское наследие» в 1969 году) и руководств по грамматике, таких как « Всесторонняя грамматика английского языка» , опубликованного в 1985 году.
Эксперты в этой области имеют разные точки зрения на аннотацию корпуса. Эти взгляды варьируются от Джона МакХарди Синклера , который выступает за минимальное количество аннотаций, чтобы тексты говорили сами за себя, [2] до группы по исследованию использования английского языка ( Университетский колледж , Лондон), которая выступает за аннотации как средство, позволяющее лучше понять язык посредством тщательной записи. [3]
Некоторые из самых ранних попыток грамматического описания были основаны, по крайней мере частично, на корпусах, имеющих особое религиозное или культурное значение. Например, литература Пратишакхья описывала звуковые модели санскрита , найденные в Ведах , а грамматика классического санскрита Панини была основана, по крайней мере частично, на анализе того же корпуса. Точно так же ранние арабские грамматики уделяли особое внимание языку Корана . В западноевропейской традиции ученые готовили симфонии , позволяющие детально изучить язык Библии и других канонических текстов.
Вехой в современной корпусной лингвистике стала публикация « Компьютерного анализа современного американского английского языка» в 1967 году. Написанная Генри Кучерой и У. Нельсоном Фрэнсисом , работа была основана на анализе Коричневого корпуса , который представлял собой современную компиляцию около миллион слов американского английского языка, тщательно отобранных из самых разных источников. [4] Корпус Брауна был первым компьютеризированным корпусом, предназначенным для лингвистических исследований. [5] Кучера и Фрэнсис подвергли Коричневый корпус множеству компьютерного анализа, а затем объединили элементы лингвистики, преподавания языков, психологии , статистики и социологии, чтобы создать богатый и разнообразный опус. Еще одной ключевой публикацией была книга Рэндольфа Квирка «К описанию использования английского языка» в 1960 году [6] , в которой он представил «Обзор использования английского языка» . Корпус Квирка был первым современным корпусом, созданным с целью представления всего языка. [7]
Вскоре после этого бостонское издательство Houghton-Mifflin обратилось к Кучере с просьбой предоставить трехстрочную базу цитирования из миллиона слов для его нового словаря американского наследия , первого словаря, составленного с использованием корпусной лингвистики. AHD предпринял инновационный шаг, объединив предписывающие элементы (как следует использовать язык ) с описательной информацией (как он на самом деле используется ).
Другие издатели последовали этому примеру. Одноязычный словарь для учащихся COBUILD британского издателя Collins , предназначенный для пользователей, изучающих английский как иностранный , был составлен с использованием Bank of English . Корпус исследования использования английского языка использовался при разработке одной из наиболее важных грамматик на основе корпуса, написанной Quirk et al. и опубликовано в 1985 году под названием «Всеобъемлющая грамматика английского языка» . [8]
Коричневый корпус также породил ряд корпусов с аналогичной структурой: LOB Corpus ( британский английский 1960-х годов ), Kolhapur ( индийский английский ), Wellington ( новозеландский английский ), Австралийский корпус английского языка ( австралийский английский ), Frown Corpus (начало 1990-х). американский английский ) и FLOB Corpus (британский английский 1990-х годов). Другие корпуса представляют множество языков, разновидностей и модусов и включают Международный корпус английского языка и Британский национальный корпус , коллекцию из 100 миллионов слов различных устных и письменных текстов, созданную в 1990-х годах консорциумом издателей, университетов ( Оксфорд и Ланкастер ) и Британская библиотека . Что касается современного американского английского, работа над Американским национальным корпусом застопорилась , но Корпус современного американского английского языка, насчитывающий более 400 миллионов слов (с 1990 года по настоящее время), теперь доступен через веб-интерфейс.
Первый компьютеризированный корпус транскрибируемой разговорной речи был создан в 1971 году в рамках Монреальского французского проекта [9] и содержал один миллион слов, что вдохновило Шану Поплак на создание гораздо большего корпуса разговорного французского языка в районе Оттава-Халл. [10]
В 1990-е годы многие из первых заметных успехов статистических методов программирования на естественном языке (НЛП) были достигнуты в области машинного перевода , в частности благодаря работе в IBM Research. Эти системы смогли воспользоваться преимуществами существующих многоязычных текстовых корпусов , которые были созданы Парламентом Канады и Европейским Союзом в результате принятия законов, требующих перевода всех правительственных процедур на все официальные языки соответствующих систем управления.
Есть корпуса и на неевропейских языках. Например, Национальный институт японского языка и лингвистики в Японии создал ряд корпусов устного и письменного японского языка. Корпуса языка жестов также были созданы с использованием видеоданных. [11]
Помимо этих корпусов живых языков, компьютеризированные корпуса также были созданы из коллекций текстов на древних языках. Примером может служить база данных еврейской Библии Андерсена -Форбса, разрабатываемая с 1970-х годов, в которой каждое предложение анализируется с использованием графиков, представляющих до семи уровней синтаксиса, и каждый сегмент помечен семью полями информации. [12] [13] Корпус Корана на арабском языке представляет собой аннотированный корпус Корана на классическом арабском языке . Это недавний проект с несколькими уровнями аннотаций, включая морфологическую сегментацию, разметку частей речи и синтаксический анализ с использованием грамматики зависимостей. [14] Цифровой корпус санскрита (DCS) — это «корпус санскритских текстов, разделенный по принципу Сандхи, с полным морфологическим и лексическим анализом... предназначенный для историко-текстовых исследований в области санскритской лингвистики и филологии». [15]
Помимо чисто лингвистических исследований, исследователи начали применять корпусную лингвистику в других академических и профессиональных областях, таких как развивающаяся субдисциплина права и корпусная лингвистика , которая стремится понять юридические тексты с использованием корпусных данных и инструментов. Набор данных DBLP Discovery посвящен информатике и содержит соответствующие публикации по информатике с важными метаданными, такими как принадлежность авторов, цитаты или области исследований. [16] Более сфокусированный набор данных был представлен NLP Scholar, представляющим собой комбинацию статей ACL Anthology и метаданных Google Scholar . [17] Corpora также может помочь в переводе [18] или в преподавании иностранных языков. [19]
Корпусная лингвистика породила ряд исследовательских методов, которые пытаются проследить путь от данных к теории. Уоллис и Нельсон (2001) [20] впервые представили то, что они назвали перспективой 3А: аннотация, абстракция и анализ.
Сегодня большинство лексических корпусов имеют теги частей речи (POS-теги). Однако даже корпусные лингвисты, работающие с «неаннотированным открытым текстом», неизбежно применяют тот или иной метод для выделения важных терминов. В таких ситуациях аннотация и абстракция объединяются в лексическом поиске.
Преимущество публикации аннотированного корпуса состоит в том, что другие пользователи могут затем проводить эксперименты с корпусом (через менеджеров корпуса ). Эту работу могут использовать лингвисты с другими интересами и точками зрения, отличными от взглядов авторов. Обмениваясь данными, корпусные лингвисты могут рассматривать корпус как место лингвистических дебатов и дальнейших исследований. [21]
Серии книг в этой области включают:
Есть несколько международных рецензируемых журналов, посвященных корпусной лингвистике, например: