Корпус американского английского языка насчитывает более 560 миллионов слов.
Корпус современного американского английского языка ( COCA ) — это корпус современного американского английского языка, состоящий из одного миллиарда слов [1] . Его создал Марк Дэвис , бывший профессор корпусной лингвистики Университета Бригама Янга (BYU). [2] [3]
Содержание
По состоянию на ноябрь 2021 года Корпус современного американского английского языка (COCA) состоит из одного миллиарда слов. [1] [2] [4] Корпус постоянно растет: в 2009 году он содержал более 385 миллионов слов; [5] В 2010 году корпус увеличился до 400 миллионов слов; [6] К марту 2019 года [7] корпус вырос до 560 миллионов слов. [7]
По состоянию на ноябрь 2021 года корпус современного американского английского состоит из 485 202 текстов. [4] Согласно веб-сайту корпуса, [4] текущий корпус (ноябрь 2021 г.) состоит из текстов, включающих 24–25 миллионов слов за каждый год 1990–2019 гг.
Для каждого года, содержащегося в корпусе (1990–2019 гг.), корпус равномерно разделен между шестью регистрами/жанрами: телевидение/фильмы, разговорная речь, художественная литература, журналы, газеты и научные исследования (см. страницу «Тексты и реестры» на веб-сайте COCA). В дополнение к шести регистрам, которые были перечислены ранее, COCA (по состоянию на ноябрь 2021 г.) также содержит 125 496 215 слов из блогов и 129 899 426 слов с веб-сайтов, что делает его корпусом, который действительно состоит из современного английского языка (см. Тексты и страницу реестра COCA). . [4]
Тексты взяты из разных источников:
- Разговор: (85 миллионов слов) Стенограммы незаписанных разговоров из почти 150 различных теле- и радиопрограмм.
- Художественная литература: (81 миллион слов) Рассказы и пьесы, первые главы книг (с 1990 г. по настоящее время) и сценарии фильмов.
- Популярные журналы: (86 миллионов слов). Около 100 различных журналов из разных областей, таких как новости, здоровье, дом и садоводство, женские, финансовые, религиозные и спортивные.
- Газеты: (81 миллион слов) Десять газет со всех концов США с текстами из разных разделов газет, таких как местные новости, мнения, спорт и финансовый раздел.
- Научные журналы: (81 миллион слов) Около 100 различных рецензируемых журналов. Они были выбраны, чтобы охватить весь диапазон классификационной системы Библиотеки Конгресса .
Доступность
Корпус современного американского английского языка может свободно искать зарегистрированные пользователи.
Запросы
- Интерфейс такой же, как интерфейс BYU-BNC для Британского национального корпуса на 100 миллионов слов, Корпуса журнала Time Magazine на 100 миллионов слов и Корпуса исторического американского английского языка (COHA) на 400 миллионов слов, 1810–2000-е годы (см. Ссылки ниже). )
- Запросы по слову, фразе, альтернативам, подстроке, части речи, лемме, синонимам (см. ниже) и настраиваемым спискам (см. ниже).
- Корпус помечен CLAWS — тем же тегом части речи (PoS), который использовался для BNC и корпуса времени.
- Списки диаграмм (общее количество всех форм соответствия в каждом жанре или году, с 1990 г. по настоящее время, а также для поджанров) и списки таблиц (частота каждой формы соответствия в каждом жанре или году)
- Полный поиск по коллокациям (до десяти слов слева и справа от узлового слова)
- Повторно сортируемые соответствия, показывающие наиболее распространенные слова/строки слева и справа от искомого слова.
- Сравнения между жанрами или периодами времени (например, словосочетания со словом «стул» в художественной или академической литературе, существительные со словом «разбить [N]» в газетах или научных изданиях, прилагательные, которые встречаются в основном в спортивных журналах, или глаголы, которые более распространены в 2005–2010 годах, чем в 2010 году. ранее)
- Одноэтапное сравнение коллокатов родственных слов для изучения семантических или культурных различий между словами (например, сравнение коллокатов слов «маленький», «маленький», «крошечный», «крохотный», «лилипутский» или «демократы» и «республиканцы»). , или «мужчины» и «женщины», или «грабить» или «воровать»)
- Пользователи могут включать семантическую информацию из тезауруса, состоящего из 60 000 статей, непосредственно как часть синтаксиса запроса (например, частота и распределение синонимов слова «красивый», синонимы слова «сильный», встречающиеся в художественной, но не академической литературе, синонимы «чистый» + существительное (' помыть пол', 'помыть посуду'))
- Пользователи также могут создавать свои собственные «индивидуальные» списки слов, а затем повторно использовать их как часть последующих запросов (например, списки, относящиеся к определенной семантической категории (одежда, еда, эмоции) или определенной пользователем части речи).
- Обратите внимание, что корпус доступен только через веб-интерфейс из-за ограничений авторских прав.
Связанный
Корпус глобального веб-английского языка (GloWbE; произносится как «глобус») содержит около 1,9 миллиарда слов текста из двадцати разных стран. Это делает его примерно в 100 раз больше, чем другие корпуса, такие как Международный корпус английского языка, и позволяет проводить многие типы поиска, которые в противном случае были бы невозможны. Помимо этого онлайн-интерфейса, вы также можете загрузить полнотекстовые данные из корпуса.
Он уникален тем, что позволяет проводить сравнения между различными вариантами английского языка. GloWbE связан со многими другими корпусами английского языка. [8]
Смотрите также
Рекомендации
- ^ аб Милана, Приор (2021). Сравнительное корпусное исследование использования интенсификаторов в регистрах американского английского языка (Диссертация).
- ^ ab «Марк Дэвис, профессор (корпусной) лингвистики, Университет Бригама Янга (BYU)» . www.mark-davis.org . Проверено 9 ноября 2021 г.
- ↑ Кауханен, Анри (21 марта 2011 г.). «Корпус современного американского английского языка: предыстория и история». ВАРИЕНГ . Проверено 13 октября 2011 г.
- ^ abcd «Домашняя страница». Корпус современного американского английского языка . Проверено 24 апреля 2022 г.
- ↑ Дэвис, Марк (1 января 2009 г.). «Корпус современного американского английского языка из 385+ миллионов слов (1990–2008+): дизайн, архитектура и лингвистические идеи». Международный журнал корпусной лингвистики . 14 (2): 159–190. doi :10.1075/ijcl.14.2.02dav. ISSN 1384-6655.
- ↑ Дэвис, Марк (1 декабря 2010 г.). «Корпус современного американского английского языка как первый надежный мониторный корпус английского языка». Литературно-лингвистическая информатика . 25 (4): 447–464. doi : 10.1093/llc/fqq018. ISSN 0268-1145.
- ^ Аб Дэвис, Марк; Ким, Чон Бок (1 марта 2019 г.). «Преимущества и проблемы «больших данных»: выводы из корпуса iWeb объемом 14 миллиардов слов». Лингвистические исследования . 36 (1): 1–34. дои : 10.17250/хисли.36.1.201903.001 . ISSN 1229-1374. S2CID 133013527.
- ^ "Корпус глобального английского языка в Интернете" . www.english-corpora.org . Проверено 18 декабря 2019 г.
дальнейшее чтение
- Андерсон, Венди; Корбетт, Джон (2009). Изучение английского языка с помощью Online Corpora . Пэлгрейв Макмиллан. п. 205. ИСБН 978-0-230-55140-4.
- Беннетт, Гена Р. (2010). Использование Corpora на уроках изучения языка: корпусная лингвистика для учителей . Анн-Арбор, Мичиган : Мичиганский университет. п. 144. ИСБН 978-0-472-03385-0.
- Дэвис, Марк (2005). «Преимущество использования реляционных баз данных для крупных корпораций: скорость, расширенные запросы и неограниченное количество аннотаций». Международный журнал корпусной лингвистики . Издательство Джона Бенджамина. 10 (3): 307–334 (28). doi :10.1075/ijcl.10.3.02dav.
- Дэвис, Марк (2010). «Больше, чем глазок: использование больших и разнообразных онлайн-корпораций». Международный журнал корпусной лингвистики . 15 (3): 405–411. doi : 10.1075/ijcl.15.3.13dav.
- Линдквист, Ганс (2009). Корпусная лингвистика и описание английского языка . Издательство Эдинбургского университета. ISBN 978-0-7486-2615-1.
Внешние ссылки
- Официальный веб-сайт
- «Лингвистическая поисковая система, которая отменила федеральный мандат на маски» - статья в Verge