The Brown University Standard Corpus of Contemporary-Day American English , более известный как просто Brown Corpus , представляет собой электронную коллекцию текстовых образцов американского английского языка, первый крупный структурированный корпус различных жанров. Этот корпус впервые установил планку для научного изучения частоты и распределения категорий слов в повседневном использовании языка. Составленный Генри Кучерой и У. Нельсоном Фрэнсисом в Brown University , в Род-Айленде , это общий языковой корпус, содержащий 500 образцов английского языка, в общей сложности около миллиона слов, составленный из работ, опубликованных в Соединенных Штатах в 1961 году.
В 1967 году Кучера и Фрэнсис опубликовали свою классическую работу под названием «Компьютерный анализ современного американского английского» , в которой были представлены основные статистические данные о том, что сегодня известно просто как Корпус Брауна . [1]
Корпус Брауна был тщательно составленным выбором современного американского английского, в общей сложности около миллиона слов, взятых из самых разных источников. Кучера и Фрэнсис подвергли его различным вычислительным анализам, из которых они составили богатый и разнообразный опус, сочетающий элементы лингвистики, психологии, статистики и социологии. Он очень широко использовался в вычислительной лингвистике и в течение многих лет был одним из самых цитируемых ресурсов в этой области. [2]
Вскоре после публикации первого лексикостатистического анализа бостонское издательство Houghton-Mifflin обратилось к Кучере с просьбой предоставить базу цитат из миллиона слов в три строки для своего нового словаря American Heritage Dictionary . Этот новаторский новый словарь, впервые появившийся в 1969 году, стал первым словарем, составленным с использованием корпусной лингвистики для частотности слов и другой информации.
Первоначальный Brown Corpus содержал только сами слова, а также идентификатор местоположения для каждого. В течение следующих нескольких лет применялись теги частей речи. Программа тегирования Greene and Rubin (см. раздел теги частей речи ) значительно помогла в этом, но высокий уровень ошибок означал, что требовалась обширная ручная вычитка.
Тегированный корпус Brown использовал выборку из около 80 частей речи, а также специальные индикаторы для сложных форм, сокращений, иностранных слов и нескольких других явлений, и сформировал модель для многих более поздних корпусов, таких как корпус Lancaster-Oslo-Bergen (британский английский с начала 1990-х годов) и корпус Freiburg-Brown американского английского (FROWN) (американский английский с начала 1990-х годов). [3] [4] Тегирование корпуса позволило проводить гораздо более сложный статистический анализ, такой как работа, запрограммированная Эндрю Маки и задокументированная в книгах по английской грамматике. [5]
Один интересный результат заключается в том, что даже для довольно больших выборок графическое представление слов в порядке убывания частоты их появления показывает гиперболу : частота n -го наиболее часто встречающегося слова примерно пропорциональна 1/ n . Таким образом, «the» составляет почти 7% Брауновского корпуса, «to» и «of» — более 3% каждое; в то время как около половины всего словарного запаса из примерно 50 000 слов являются hapax legomena : словами, которые встречаются в корпусе только один раз. [6] Эта простая связь ранга и частоты была отмечена для необычайного разнообразия явлений Джорджем Кингсли Ципфом (например, см. его «Психобиология языка ») и известна как закон Ципфа .
Хотя Корпус Брауна стал пионером в области корпусной лингвистики, к настоящему времени типичные корпуса (такие как Корпус современного американского английского языка , Британский национальный корпус или Международный корпус английского языка ), как правило, намного больше и содержат порядка 100 миллионов слов.
Корпус состоит из 500 образцов, распределенных по 15 жанрам в грубой пропорции к количеству опубликованных в 1961 году в каждом из этих жанров. Все отобранные работы были опубликованы в 1961 году; насколько удалось определить, они были впервые опубликованы тогда и были написаны носителями американского английского языка.
Каждый образец начинался на случайной границе предложения в статье или другой выбранной единице и продолжался до первой границы предложения после 2000 слов. В очень немногих случаях ошибки в подсчетах приводили к тому, что образцы были чуть менее 2000 слов.
Первоначально ввод данных осуществлялся на кнопочных перфораторах, поддерживающих только заглавные буквы ; заглавные буквы обозначались предшествующей звездочкой, а различные специальные элементы, такие как формулы, также имели специальные коды.
Первоначально (1961 г.) корпус содержал 1 014 312 слов, отобранных из 15 текстовых категорий: