Корпусная лингвистика

Корпусная лингвистика — это изучение языка в том виде, в котором этот язык выражается в его текстовом корпусе (множественном числе ), его теле текста «реального мира». Корпусная лингвистика предполагает, что надежный анализ языка более возможен с использованием корпусов, собранных в полевых условиях - естественном контексте («реалии») этого языка - с минимальным экспериментальным вмешательством. Большие коллекции текста позволяют лингвистам проводить количественный анализ лингвистических концепций, которые в противном случае труднее оценить количественно. ^[1]

Метод текстового корпуса использует тексты, написанные на любом естественном языке, для получения набора абстрактных правил, которые управляют этим языком. Эти результаты можно использовать для изучения отношений между этим изучаемым языком и другими языками, подвергшимися аналогичному анализу. Первые такие корпуса создавались вручную на основе исходных текстов, но сейчас эта работа автоматизирована.

Corpora использовались не только для лингвистических исследований, но и для составления словарей (начиная со словаря английского языка «Американское наследие» в 1969 году) и руководств по грамматике, таких как « Всесторонняя грамматика английского языка» , опубликованного в 1985 году.

Эксперты в этой области имеют разные точки зрения на аннотацию корпуса. Эти взгляды варьируются от Джона МакХарди Синклера , который выступает за минимальное количество аннотаций, чтобы тексты говорили сами за себя, ^[2] до группы по исследованию использования английского языка ( Университетский колледж , Лондон), которая выступает за аннотации как средство, позволяющее лучше понять язык посредством тщательной записи. ^[3]

История

Некоторые из самых ранних попыток грамматического описания были основаны, по крайней мере частично, на корпусах, имеющих особое религиозное или культурное значение. Например, литература Пратишакхья описывала звуковые модели санскрита , найденные в Ведах , а грамматика классического санскрита Панини была основана, по крайней мере частично, на анализе того же корпуса. Точно так же ранние арабские грамматики уделяли особое внимание языку Корана . В западноевропейской традиции ученые готовили симфонии , позволяющие детально изучить язык Библии и других канонических текстов.

английский корпус

Вехой в современной корпусной лингвистике стала публикация « Компьютерного анализа современного американского английского языка» в 1967 году. Написанная Генри Кучерой и У. Нельсоном Фрэнсисом , работа была основана на анализе Коричневого корпуса , который представлял собой современную компиляцию около миллион слов американского английского языка, тщательно отобранных из самых разных источников. ^[4] Корпус Брауна был первым компьютеризированным корпусом, предназначенным для лингвистических исследований. ^[5] Кучера и Фрэнсис подвергли Коричневый корпус множеству компьютерного анализа, а затем объединили элементы лингвистики, преподавания языков, психологии , статистики и социологии, чтобы создать богатый и разнообразный опус. Еще одной ключевой публикацией была книга Рэндольфа Квирка «К описанию использования английского языка» в 1960 году ^[6] , в которой он представил «Обзор использования английского языка» . Корпус Квирка был первым современным корпусом, созданным с целью представления всего языка. ^[7]

Вскоре после этого бостонское издательство Houghton-Mifflin обратилось к Кучере с просьбой предоставить трехстрочную базу цитирования из миллиона слов для его нового словаря американского наследия , первого словаря, составленного с использованием корпусной лингвистики. AHD предпринял инновационный шаг, объединив предписывающие элементы (как следует использовать язык ) с описательной информацией (как он на самом деле используется ).

Другие издатели последовали этому примеру. Одноязычный словарь для учащихся COBUILD британского издателя Collins , предназначенный для пользователей, изучающих английский как иностранный , был составлен с использованием Bank of English . Корпус исследования использования английского языка использовался при разработке одной из наиболее важных грамматик на основе корпуса, написанной Quirk et al. и опубликовано в 1985 году под названием «Всеобъемлющая грамматика английского языка» . ^[8]

Коричневый корпус также породил ряд корпусов с аналогичной структурой: LOB Corpus ( британский английский 1960-х годов ), Kolhapur ( индийский английский ), Wellington ( новозеландский английский ), Австралийский корпус английского языка ( австралийский английский ), Frown Corpus (начало 1990-х). американский английский ) и FLOB Corpus (британский английский 1990-х годов). Другие корпуса представляют множество языков, разновидностей и модусов и включают Международный корпус английского языка и Британский национальный корпус , коллекцию из 100 миллионов слов различных устных и письменных текстов, созданную в 1990-х годах консорциумом издателей, университетов ( Оксфорд и Ланкастер ) и Британская библиотека . Что касается современного американского английского, работа над Американским национальным корпусом застопорилась , но Корпус современного американского английского языка, насчитывающий более 400 миллионов слов (с 1990 года по настоящее время), теперь доступен через веб-интерфейс.

Первый компьютеризированный корпус транскрибируемой разговорной речи был создан в 1971 году в рамках Монреальского французского проекта ^[9] и содержал один миллион слов, что вдохновило Шану Поплак на создание гораздо большего корпуса разговорного французского языка в районе Оттава-Халл. ^[10]

Многоязычная корпорация

В 1990-е годы многие из первых заметных успехов статистических методов программирования на естественном языке (НЛП) были достигнуты в области машинного перевода , в частности благодаря работе в IBM Research. Эти системы смогли воспользоваться преимуществами существующих многоязычных текстовых корпусов , которые были созданы Парламентом Канады и Европейским Союзом в результате принятия законов, требующих перевода всех правительственных процедур на все официальные языки соответствующих систем управления.

Есть корпуса и на неевропейских языках. Например, Национальный институт японского языка и лингвистики в Японии создал ряд корпусов устного и письменного японского языка. Корпуса языка жестов также были созданы с использованием видеоданных. ^[11]

Корпуса древних языков

Помимо этих корпусов живых языков, компьютеризированные корпуса также были созданы из коллекций текстов на древних языках. Примером может служить база данных еврейской Библии Андерсена -Форбса, разрабатываемая с 1970-х годов, в которой каждое предложение анализируется с использованием графиков, представляющих до семи уровней синтаксиса, и каждый сегмент помечен семью полями информации. ^[12]^[13] Корпус Корана на арабском языке представляет собой аннотированный корпус Корана на классическом арабском языке . Это недавний проект с несколькими уровнями аннотаций, включая морфологическую сегментацию, разметку частей речи и синтаксический анализ с использованием грамматики зависимостей. ^[14] Цифровой корпус санскрита (DCS) — это «корпус санскритских текстов, разделенный по принципу Сандхи, с полным морфологическим и лексическим анализом... предназначенный для историко-текстовых исследований в области санскритской лингвистики и филологии». ^[15]

Корпора из конкретных областей

Помимо чисто лингвистических исследований, исследователи начали применять корпусную лингвистику в других академических и профессиональных областях, таких как развивающаяся субдисциплина права и корпусная лингвистика , которая стремится понять юридические тексты с использованием корпусных данных и инструментов. Набор данных DBLP Discovery посвящен информатике и содержит соответствующие публикации по информатике с важными метаданными, такими как принадлежность авторов, цитаты или области исследований. ^[16] Более сфокусированный набор данных был представлен NLP Scholar, представляющим собой комбинацию статей ACL Anthology и метаданных Google Scholar . ^[17] Corpora также может помочь в переводе ^[18] или в преподавании иностранных языков. ^[19]

Методы

Корпусная лингвистика породила ряд исследовательских методов, которые пытаются проследить путь от данных к теории. Уоллис и Нельсон (2001) ^[20] впервые представили то, что они назвали перспективой 3А: аннотация, абстракция и анализ.

Аннотация состоит из приложения схемы к текстам. Аннотации могут включать структурную разметку, теги частей речи , синтаксический анализ и множество других представлений.
Абстракция состоит из перевода (сопоставления) терминов схемы с терминами теоретически обоснованной модели или набора данных. Абстракция обычно включает в себя поиск под руководством лингвиста, но может включать, например, изучение правил для парсеров.
Анализ состоит из статистического исследования, манипулирования и обобщения набора данных. Анализ может включать статистические оценки, оптимизацию баз правил или методов обнаружения знаний.

Сегодня большинство лексических корпусов имеют теги частей речи (POS-теги). Однако даже корпусные лингвисты, работающие с «неаннотированным открытым текстом», неизбежно применяют тот или иной метод для выделения важных терминов. В таких ситуациях аннотация и абстракция объединяются в лексическом поиске.

Преимущество публикации аннотированного корпуса состоит в том, что другие пользователи могут затем проводить эксперименты с корпусом (через менеджеров корпуса ). Эту работу могут использовать лингвисты с другими интересами и точками зрения, отличными от взглядов авторов. Обмениваясь данными, корпусные лингвисты могут рассматривать корпус как место лингвистических дебатов и дальнейших исследований. ^[21]

Смотрите также

Примечания и ссылки

^ Ханстон, С. (1 января 2006 г.), Браун, Кейт (редактор), «Корпус лингвистики», Энциклопедия языка и лингвистики (второе издание) , Оксфорд: Elsevier, стр. 234–248, doi : 10.1016/b0- 08-044854-2/00944-5, ISBN 978-0-08-044854-1, получено 31 октября 2023 г.
^ Синклер, Дж. «Автоматический анализ корпусов», в Свартвик, Дж. (ред.) Направления корпусной лингвистики (Материалы Нобелевского симпозиума 82) . Берлин: Мутон де Грюйтер. 1992.
^ Уоллис, С. «Аннотация, поиск и экспериментирование», в Меурман-Солин, А. и Нурми, А.А. (ред.). Аннотирование вариаций и изменений. Хельсинки: Вариенг, [Хельсинкский университет]. 2007. Электронное издание.
^ Фрэнсис, В. Нельсон; Кучера, Генри (1 июня 1967 г.). Компьютерный анализ современного американского английского . Провиденс: Издательство Университета Брауна. ISBN 978-0870571053.
^ Кеннеди, Г. (1 января 2001 г.), Смелзер, Нил Дж.; Балтес, Пол Б. (ред.), «Корпусная лингвистика», Международная энциклопедия социальных и поведенческих наук , Оксфорд: Пергамон, стр. 2816–2820, ISBN 978-0-08-043076-8, получено 31 октября 2023 г.
^ Квирк, Рэндольф (ноябрь 1960 г.). «К описанию использования английского языка». Труды Филологического общества . 59 (1): 40–61. doi :10.1111/j.1467-968X.1960.tb00308.x.
^ Кеннеди, Г. (1 января 2001 г.), Смелзер, Нил Дж.; Балтес, Пол Б. (ред.), «Корпусная лингвистика», Международная энциклопедия социальных и поведенческих наук , Оксфорд: Пергамон, стр. 2816–2820, doi : 10.1016/b0-08-043076-7/03056-4, ISBN 978-0-08-043076-8, получено 31 октября 2023 г.
^ Квирк, Рэндольф; Гринбаум, Сидней; Лич, Джеффри; Свартвик, Ян (1985). Комплексная грамматика английского языка . Лондон: Лонгман. ISBN 978-0582517349.
^ Санкофф, Дэвид; Санкофф, Джиллиан (1973). Дарнелл, Р. (ред.). «Методы выборочного опроса и компьютерный анализ при изучении грамматических вариаций». Канадские языки в их социальном контексте . Эдмонтон: Linguistic Research Incorporated: 7–63.
^ Поплак, Шана (1989). Фасолд, Р.; Шиффрин, Д. (ред.). «Уход за мегакорпусом и обращение с ним». Языковые изменения и вариации . Актуальные проблемы лингвистической теории. Амстердам: Бенджаминс. 52 : 411–451. дои : 10.1075/cilt.52.25pop. ISBN 978-90-272-3546-6.
^ «Национальный центр ресурсов языка жестов и жестов при BU» www.bu.edu . Проверено 31 октября 2023 г.
^ Андерсен, Фрэнсис I.; Форбс, А. Дин (2003), «Визуализация грамматики иврита: I. Синтаксис», Древние исследования Ближнего Востока , том. 40, стр. 43–61 [45]
^ Эйланд, Э. Энн (1987), «Откровения из подсчета слов», в Ньюинге, Эдвард Г.; Конрад, Эдгар В. (ред.), Перспективы языка и текста: очерки и стихи в честь шестидесятилетия Фрэнсиса И. Андерсена, 28 июля 1985 г. , Вайнона Лейк, IN: Eisenbrauns , стр. 51, ISBN 0-931464-26-9
^ Дьюкс, К., Этвелл, Э. и Хабаш, Н. «Контролируемое сотрудничество в области синтаксических аннотаций арабского языка Корана». Языковые ресурсы и журнал оценки . 2011.
^ "Цифровой корпус санскрита (DCS)" . Проверено 28 июня 2022 г.
^ Вале, Ян Филип; Руас, Терри; Мохаммед, Саиф; Гипп, Бела (2022). «D3: Массивный набор научных метаданных для анализа состояния исследований в области компьютерных наук». Материалы тринадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 2642–2651. arXiv : 2204.13384 .
^ Мохаммад, Саиф М. (2020). «Ученый НЛП: набор данных для изучения состояния исследований НЛП». Материалы двенадцатой конференции по языковым ресурсам и оценке . Марсель, Франция: Европейская ассоциация языковых ресурсов: 868–877. ISBN 979-10-95546-34-4.
^ Бернардини, С. (1 января 2006 г.), Браун, Кейт (редактор), «Машиночитаемая корпорация», Энциклопедия языка и лингвистики (второе издание) , Оксфорд: Elsevier, стр. 358–375, doi : 10.1016/b0 -08-044854-2/00476-4, ISBN 978-0-08-044854-1, получено 31 октября 2023 г.
^ Майнц, Университет Иоганна Гутенберга. «Корпусная лингвистика | АНГЛИЙСКАЯ ЛИНГВИСТИКА». Йоханнес Гутенберг-Университет Майнца (на немецком языке) . Проверено 31 октября 2023 г.
^ Уоллис, С. и Нельсон Г. Открытие знаний в грамматически проанализированных корпусах . Интеллектуальный анализ данных и обнаружение знаний , 5 : 307–340. 2001.
^ Бейкер, Пол; Эгберт, Джесси, ред. (2016). Триангуляция методологических подходов в корпусно-лингвистических исследованиях . Нью-Йорк: Рутледж.

дальнейшее чтение

Книги

Бибер Д., Конрад С., Реппен Р. Корпусная лингвистика, исследование структуры и использования языка , Кембридж: Кембриджский университет, 1998. ISBN 0-521-49957-7
Маккарти, Д., и Сэмпсон Г. Корпусная лингвистика: материалы по расширяющейся дисциплине , Continuum, 2005. ISBN 0-8264-8803-X
Факкинетти, Р. Теоретическое описание и практическое применение лингвистических корпусов . Верона: QuiEdit, 2007 ISBN 978-88-89480-37-3
Факкинетти, Р. (ред.) Корпусная лингвистика 25 лет спустя . Нью-Йорк/Амстердам: Родопи, 2007 ISBN 978-90-420-2195-2
Факкинетти Р. и Риссанен М. (ред.) Корпусные исследования диахронического английского языка . Берн: Питер Ланг, ISBN 2006 г. 3-03910-851-4
Лендерс, В. Компьютерная лексикография и корпусная лингвистика до ок. 1970/1980 , в: Гаус Р.Х., Хайд У., Швейкард В., Виганд Х.Е. (ред.) Словари - Международная энциклопедия лексикографии. Дополнительный том: Последние разработки с акцентом на электронную и компьютерную лексикографию . Берлин: Де Грютер Мутон, 2013 ISBN 978-3112146651
Фусс, Эрик и др. (Ред.): Grammar and Corpora 2016 , Гейдельберг: Издательство Гейдельбергского университета, 2018. doi : 10.17885/heiup.361.509 (цифровой открытый доступ).
Стефанович А. 2020. Корпусная лингвистика: Руководство по методологии . Берлин: Language Science Press. ISBN 978-3-96110-225-9 , doi : 10.5281/zenodo.3735822 Открытый доступ https://langsci-press.org/catalog/book/148.

Серия книг

Серии книг в этой области включают:

Язык и компьютеры (Брилл)
Исследования в области корпусной лингвистики (Джон Бенджаминс)
Корпусная лингвистика английского языка (Питер Лэнг)
Корпус и дискурс (Блумсбери)

Журналы

Есть несколько международных рецензируемых журналов, посвященных корпусной лингвистике, например:

Корпора
Корпусная лингвистика и лингвистическая теория
Журнал ICAME
Международный журнал корпусной лингвистики
Журнал «Языковые ресурсы и оценка», поддерживаемый Европейской ассоциацией языковых ресурсов.
Исследования в области корпусной лингвистики при поддержке Испанской ассоциации корпусной лингвистики (AELINCO).

Внешние ссылки

Викискладе есть медиафайлы, связанные с корпусной лингвистикой .

Закладки для лингвистов, основанных на корпусе — очень полный сайт с категоризированными и аннотированными ссылками на языковые корпуса, программное обеспечение, ссылки и т. д.
Список обсуждений корпорации
Свободно доступные веб-корпорации (по 100–400 миллионов слов каждая): американские (COCA, COHA), британские (BNC), Time, испанские, португальские.
Обзорный сайт Мануэля Барберы
AskOxford.com состав и использование Оксфордского корпуса
DMCBC.com
Datum Multilanguage Corpora на основе китайского бесплатного образца, скачать
Сообщество Corpus4u - китайский онлайн-форум по корпусной лингвистике.
Страница корпусной лингвистики МакЭнери и Уилсона
Корпусная лингвистика со списком рассылки R
Отдел исследований и разработок по изучению английского языка. Архивировано 29 октября 2010 г. в Wayback Machine.
Исследование использования английского языка
Центр корпусной лингвистики Бирмингемского университета. Архивировано 9 апреля 2003 г. в Wayback Machine.
Инструменты корпусной лингвистики (аннотированный список)
Путь к корпусной лингвистике в Интернете: аннотированный справочник по корпусным ресурсам в сети
Биомедицинские корпуса
Консорциум лингвистических данных, крупный дистрибьютор корпусов
Penn разобрал корпус исторического английского языка
Corsis: (ранее Tenka Text) инструмент корпусного анализа с открытым исходным кодом ( под лицензией GPL ), написанный на C#.
ICECUP и нечеткие фрагменты дерева
Анализ текста в дискуссионной группе
Конференция по корпусной лингвистике MAG 2017: Вы можете найти некоторую информацию и мероприятия, связанные с метадискурсом в разных жанрах, посетив веб-сайт MAG 2017.
Корпус политических выступлений, бесплатный доступ к политическим выступлениям американских и китайских политиков, разработанный библиотекой Гонконгского баптистского университета.
LightTag — инструмент текстовых аннотаций. Инструмент текстовых аннотаций для корпуса машинного обучения, ориентированный на управление командой.
Синхронный корпус LIVAC