Коричневый корпус

The Brown University Standard Corpus of Contemporary-Day American English , более известный как просто Brown Corpus , представляет собой электронную коллекцию текстовых образцов американского английского языка, первый крупный структурированный корпус различных жанров. Этот корпус впервые установил планку для научного изучения частоты и распределения категорий слов в повседневном использовании языка. Составленный Генри Кучерой и У. Нельсоном Фрэнсисом в Brown University , в Род-Айленде , это общий языковой корпус, содержащий 500 образцов английского языка, в общей сложности около миллиона слов, составленный из работ, опубликованных в Соединенных Штатах в 1961 году.

История

В 1967 году Кучера и Фрэнсис опубликовали свою классическую работу под названием «Компьютерный анализ современного американского английского» , в которой были представлены основные статистические данные о том, что сегодня известно просто как Корпус Брауна . ^[1]

Корпус Брауна был тщательно составленным выбором современного американского английского, в общей сложности около миллиона слов, взятых из самых разных источников. Кучера и Фрэнсис подвергли его различным вычислительным анализам, из которых они составили богатый и разнообразный опус, сочетающий элементы лингвистики, психологии, статистики и социологии. Он очень широко использовался в вычислительной лингвистике и в течение многих лет был одним из самых цитируемых ресурсов в этой области. ^[2]

Вскоре после публикации первого лексикостатистического анализа бостонское издательство Houghton-Mifflin обратилось к Кучере с просьбой предоставить базу цитат из миллиона слов в три строки для своего нового словаря American Heritage Dictionary . Этот новаторский новый словарь, впервые появившийся в 1969 году, стал первым словарем, составленным с использованием корпусной лингвистики для частотности слов и другой информации.

Первоначальный Brown Corpus содержал только сами слова, а также идентификатор местоположения для каждого. В течение следующих нескольких лет применялись теги частей речи. Программа тегирования Greene and Rubin (см. раздел теги частей речи ) значительно помогла в этом, но высокий уровень ошибок означал, что требовалась обширная ручная вычитка.

Тегированный корпус Brown использовал выборку из около 80 частей речи, а также специальные индикаторы для сложных форм, сокращений, иностранных слов и нескольких других явлений, и сформировал модель для многих более поздних корпусов, таких как корпус Lancaster-Oslo-Bergen (британский английский с начала 1990-х годов) и корпус Freiburg-Brown американского английского (FROWN) (американский английский с начала 1990-х годов). ^[3]^[4] Тегирование корпуса позволило проводить гораздо более сложный статистический анализ, такой как работа, запрограммированная Эндрю Маки и задокументированная в книгах по английской грамматике. ^[5]

Один интересный результат заключается в том, что даже для довольно больших выборок графическое представление слов в порядке убывания частоты их появления показывает гиперболу : частота n -го наиболее часто встречающегося слова примерно пропорциональна 1/ n . Таким образом, «the» составляет почти 7% Брауновского корпуса, «to» и «of» — более 3% каждое; в то время как около половины всего словарного запаса из примерно 50 000 слов являются hapax legomena : словами, которые встречаются в корпусе только один раз. ^[6] Эта простая связь ранга и частоты была отмечена для необычайного разнообразия явлений Джорджем Кингсли Ципфом (например, см. его «Психобиология языка ») и известна как закон Ципфа .

Хотя Корпус Брауна стал пионером в области корпусной лингвистики, к настоящему времени типичные корпуса (такие как Корпус современного американского английского языка , Британский национальный корпус или Международный корпус английского языка ), как правило, намного больше и содержат порядка 100 миллионов слов.

Распространение образцов

Корпус состоит из 500 образцов, распределенных по 15 жанрам в грубой пропорции к количеству опубликованных в 1961 году в каждом из этих жанров. Все отобранные работы были опубликованы в 1961 году; насколько удалось определить, они были впервые опубликованы тогда и были написаны носителями американского английского языка.

Каждый образец начинался на случайной границе предложения в статье или другой выбранной единице и продолжался до первой границы предложения после 2000 слов. В очень немногих случаях ошибки в подсчетах приводили к тому, что образцы были чуть менее 2000 слов.

Первоначально ввод данных осуществлялся на кнопочных перфораторах, поддерживающих только заглавные буквы ; заглавные буквы обозначались предшествующей звездочкой, а различные специальные элементы, такие как формулы, также имели специальные коды.

Первоначально (1961 г.) корпус содержал 1 014 312 слов, отобранных из 15 текстовых категорий:

А. ПРЕССА: Репортаж ( 44 текста )
- Политический
- Спорт
- Общество
- Новости
- Финансовый
- Культурный
B. ПРЕССА: Редакционная статья ( 27 текстов )
- Институциональная ежедневная газета
- Личный
- Письма в редакцию
C. ПРЕССА: Обзоры ( 17 текстов )
- театр
- книги
- музыка
- танец
D. РЕЛИГИЯ ( 17 текстов )
- Книги
- Периодические издания
- Трактаты
E. НАВЫКИ И ХОББИ ( 36 текстов )
- Книги
- Периодические издания
F. ПОПУЛЯРНЫЕ ПРЕДАНИЯ ( 48 текстов )
- Книги
- Периодические издания
G. BELLES-LETTRES - Биография, Мемуары и т.д. ( 75 текстов )
- Книги
- Периодические издания
H. РАЗНОЕ: Правительство США и органы Палаты представителей ( 30 текстов )
- Правительственные документы
- Отчеты Фонда
- Отчеты отрасли
- Каталог колледжей
- Орган Индустриального Дома
J. LEARNED ( 80 текстов )
- Естественные науки
- Лекарство
- Математика
- Социальные и поведенческие науки
- Политология, право, образование
- Гуманитарные науки
- Технологии и инжиниринг
К. ХУДОЖЕСТВЕННАЯ ЛИТЕРАТУРА: Общая ( 29 текстов )
- Романы
- Короткие рассказы
Л. ХУДОЖЕСТВЕННАЯ ЛИТЕРАТУРА: Детективная литература и детективы ( 24 текста )
- Романы
- Короткие рассказы
М. ХУДОЖЕСТВЕННАЯ ЛИТЕРАТУРА: Наука ( 6 текстов )
- Романы
- Короткие рассказы
Н. ХУДОЖЕСТВЕННАЯ ЛИТЕРАТУРА: Приключения и вестерн ( 29 текстов )
- Романы
- Короткие рассказы
П. ХУДОЖЕСТВЕННАЯ ЛИТЕРАТУРА: Романтика и история любви ( 29 текстов )
- Романы
- Короткие рассказы
Р. ЮМОР ( 9 текстов )
- Романы
- Эссе и т.д.

Используемые теги частей речи

Смотрите также

LOB Corpus — корпус британского английского языка, основанный на тех же параметрах, что и Brown Corpus
Британский национальный корпус

Ссылки

^ Фрэнсис, У. Нельсон и Генри Кучера. 1967. Компьютерный анализ современного американского варианта английского языка. Провиденс, Род-Айленд: Brown University Press.
^ Фрэнсис, У. Нельсон и Генри Кучера. 1979. РУКОВОДСТВО ПО КОРПУСУ BROWN: Информационное руководство для сопровождения стандартного корпуса современного отредактированного американского английского языка для использования с цифровыми компьютерами. http://icame.uib.no/brown/bcm.html.
^ Хундт, Марианна, Андреа Санд и Райнер Симунд. 1998. Информационное руководство к корпусу американского английского языка Фрайбурга-Брауна (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM Архивировано 03.04.2014 на Wayback Machine
^ Лич, Джеффри и Николас Смит. 2005. Расширение возможностей корпусных исследований английского языка в двадцатом веке: приквел к LOB и FLOB. Журнал ICAME 29. 83–98.
^ Уинтроп Нельсон Фрэнсис и Генри Кучера. 1983. Частотный анализ использования английского языка: лексика и грамматика, Houghton Mifflin.
^ Кирстен Мальмкьер, Лингвистическая энциклопедия , 2-е изд., Routledge, 2002, ISBN 0-415-22210-9 , стр. 87.

Внешние ссылки

Руководство по корпусу Брауна
Загрузить Корпус Брауна
Поиск с помощью Sketch Engine в Brown Corpus с аннотациями TreeTagger v2
Более подробная информация о наборе тегов Brown Corpus
Программное обеспечение Python для удобного доступа к Brown Corpus
PHP (разметка частей речи)