stringtranslate.com

Коричневый корпус

Кафедра когнитивной лингвистики и психологических наук в Университете Брауна

The Brown University Standard Corpus of Contemporary-Day American English , более известный как просто Brown Corpus , представляет собой электронную коллекцию текстовых образцов американского английского языка, первый крупный структурированный корпус различных жанров. Этот корпус впервые установил планку для научного изучения частоты и распределения категорий слов в повседневном использовании языка. Составленный Генри Кучерой и У. Нельсоном Фрэнсисом в Brown University , в Род-Айленде , это общий языковой корпус, содержащий 500 образцов английского языка, в общей сложности около миллиона слов, составленный из работ, опубликованных в Соединенных Штатах в 1961 году.

История

В 1967 году Кучера и Фрэнсис опубликовали свою классическую работу под названием «Компьютерный анализ современного американского английского» , в которой были представлены основные статистические данные о том, что сегодня известно просто как Корпус Брауна . [1]

Корпус Брауна был тщательно составленным выбором современного американского английского, в общей сложности около миллиона слов, взятых из самых разных источников. Кучера и Фрэнсис подвергли его различным вычислительным анализам, из которых они составили богатый и разнообразный опус, сочетающий элементы лингвистики, психологии, статистики и социологии. Он очень широко использовался в вычислительной лингвистике и в течение многих лет был одним из самых цитируемых ресурсов в этой области. [2]

Вскоре после публикации первого лексикостатистического анализа бостонское издательство Houghton-Mifflin обратилось к Кучере с просьбой предоставить базу цитат из миллиона слов в три строки для своего нового словаря American Heritage Dictionary . Этот новаторский новый словарь, впервые появившийся в 1969 году, стал первым словарем, составленным с использованием корпусной лингвистики для частотности слов и другой информации.

Первоначальный Brown Corpus содержал только сами слова, а также идентификатор местоположения для каждого. В течение следующих нескольких лет применялись теги частей речи. Программа тегирования Greene and Rubin (см. раздел теги частей речи ) значительно помогла в этом, но высокий уровень ошибок означал, что требовалась обширная ручная вычитка.

Тегированный корпус Brown использовал выборку из около 80 частей речи, а также специальные индикаторы для сложных форм, сокращений, иностранных слов и нескольких других явлений, и сформировал модель для многих более поздних корпусов, таких как корпус Lancaster-Oslo-Bergen (британский английский с начала 1990-х годов) и корпус Freiburg-Brown американского английского (FROWN) (американский английский с начала 1990-х годов). [3] [4] Тегирование корпуса позволило проводить гораздо более сложный статистический анализ, такой как работа, запрограммированная Эндрю Маки и задокументированная в книгах по английской грамматике. [5]

Один интересный результат заключается в том, что даже для довольно больших выборок графическое представление слов в порядке убывания частоты их появления показывает гиперболу : частота n -го наиболее часто встречающегося слова примерно пропорциональна 1/ n . Таким образом, «the» составляет почти 7% Брауновского корпуса, «to» и «of» — более 3% каждое; в то время как около половины всего словарного запаса из примерно 50 000 слов являются hapax legomena : словами, которые встречаются в корпусе только один раз. [6] Эта простая связь ранга и частоты была отмечена для необычайного разнообразия явлений Джорджем Кингсли Ципфом (например, см. его «Психобиология языка ») и известна как закон Ципфа .

Хотя Корпус Брауна стал пионером в области корпусной лингвистики, к настоящему времени типичные корпуса (такие как Корпус современного американского английского языка , Британский национальный корпус или Международный корпус английского языка ), как правило, намного больше и содержат порядка 100 миллионов слов.

Распространение образцов

Корпус состоит из 500 образцов, распределенных по 15 жанрам в грубой пропорции к количеству опубликованных в 1961 году в каждом из этих жанров. Все отобранные работы были опубликованы в 1961 году; насколько удалось определить, они были впервые опубликованы тогда и были написаны носителями американского английского языка.

Каждый образец начинался на случайной границе предложения в статье или другой выбранной единице и продолжался до первой границы предложения после 2000 слов. В очень немногих случаях ошибки в подсчетах приводили к тому, что образцы были чуть менее 2000 слов.

Первоначально ввод данных осуществлялся на кнопочных перфораторах, поддерживающих только заглавные буквы ; заглавные буквы обозначались предшествующей звездочкой, а различные специальные элементы, такие как формулы, также имели специальные коды.

Первоначально (1961 г.) корпус содержал 1 014 312 слов, отобранных из 15 текстовых категорий:

Используемые теги частей речи

Смотрите также

Ссылки

  1. ^ Фрэнсис, У. Нельсон и Генри Кучера. 1967. Компьютерный анализ современного американского варианта английского языка. Провиденс, Род-Айленд: Brown University Press.
  2. ^ Фрэнсис, У. Нельсон и Генри Кучера. 1979. РУКОВОДСТВО ПО КОРПУСУ BROWN: Информационное руководство для сопровождения стандартного корпуса современного отредактированного американского английского языка для использования с цифровыми компьютерами. http://icame.uib.no/brown/bcm.html.
  3. ^ Хундт, Марианна, Андреа Санд и Райнер Симунд. 1998. Информационное руководство к корпусу американского английского языка Фрайбурга-Брауна (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM Архивировано 03.04.2014 на Wayback Machine
  4. ^ Лич, Джеффри и Николас Смит. 2005. Расширение возможностей корпусных исследований английского языка в двадцатом веке: приквел к LOB и FLOB. Журнал ICAME 29. 83–98.
  5. ^ Уинтроп Нельсон Фрэнсис и Генри Кучера. 1983. Частотный анализ использования английского языка: лексика и грамматика, Houghton Mifflin.
  6. ^ Кирстен Мальмкьер, Лингвистическая энциклопедия , 2-е изд., Routledge, 2002, ISBN  0-415-22210-9 , стр. 87.

Внешние ссылки