stringtranslate.com

Корпус современного американского английского языка

Корпус современного американского английского языка ( COCA ) — это корпус современного американского английского языка, состоящий из одного миллиарда слов [1] . Его создал Марк Дэвис , бывший профессор корпусной лингвистики Университета Бригама Янга (BYU). [2] [3]

Содержание

По состоянию на ноябрь 2021 года Корпус современного американского английского языка (COCA) состоит из одного миллиарда слов. [1] [2] [4] Корпус постоянно растет: в 2009 году он содержал более 385 миллионов слов; [5] В 2010 году корпус увеличился до 400 миллионов слов; [6] К марту 2019 года [7] корпус вырос до 560 миллионов слов. [7]

По состоянию на ноябрь 2021 года корпус современного американского английского состоит из 485 202 текстов. [4] Согласно веб-сайту корпуса, [4] текущий корпус (ноябрь 2021 г.) состоит из текстов, включающих 24–25 миллионов слов за каждый год 1990–2019 гг.

Для каждого года, содержащегося в корпусе (1990–2019 гг.), корпус равномерно разделен между шестью регистрами/жанрами: телевидение/фильмы, разговорная речь, художественная литература, журналы, газеты и научные исследования (см. страницу «Тексты и реестры» на веб-сайте COCA). В дополнение к шести регистрам, которые были перечислены ранее, COCA (по состоянию на ноябрь 2021 г.) также содержит 125 496 215 слов из блогов и 129 899 426 слов с веб-сайтов, что делает его корпусом, который действительно состоит из современного английского языка (см. Тексты и страницу реестра COCA). . [4]


Тексты взяты из разных источников:

Доступность

Корпус современного американского английского языка может свободно искать зарегистрированные пользователи.

Запросы

Связанный

Корпус глобального веб-английского языка (GloWbE; произносится как «глобус») содержит около 1,9 миллиарда слов текста из двадцати разных стран. Это делает его примерно в 100 раз больше, чем другие корпуса, такие как Международный корпус английского языка, и позволяет проводить многие типы поиска, которые в противном случае были бы невозможны. Помимо этого онлайн-интерфейса, вы также можете загрузить полнотекстовые данные из корпуса.

Он уникален тем, что позволяет проводить сравнения между различными вариантами английского языка. GloWbE связан со многими другими корпусами английского языка. [8]

Смотрите также

Рекомендации

  1. ^ аб Милана, Приор (2021). Сравнительное корпусное исследование использования интенсификаторов в регистрах американского английского языка (Диссертация).
  2. ^ ab «Марк Дэвис, профессор (корпусной) лингвистики, Университет Бригама Янга (BYU)» . www.mark-davis.org . Проверено 9 ноября 2021 г.
  3. Кауханен, Анри (21 марта 2011 г.). «Корпус современного американского английского языка: предыстория и история». ВАРИЕНГ . Проверено 13 октября 2011 г.
  4. ^ abcd «Домашняя страница». Корпус современного американского английского языка . Проверено 24 апреля 2022 г.
  5. Дэвис, Марк (1 января 2009 г.). «Корпус современного американского английского языка из 385+ миллионов слов (1990–2008+): дизайн, архитектура и лингвистические идеи». Международный журнал корпусной лингвистики . 14 (2): 159–190. doi :10.1075/ijcl.14.2.02dav. ISSN  1384-6655.
  6. Дэвис, Марк (1 декабря 2010 г.). «Корпус современного американского английского языка как первый надежный мониторный корпус английского языка». Литературно-лингвистическая информатика . 25 (4): 447–464. doi : 10.1093/llc/fqq018. ISSN  0268-1145.
  7. ^ Аб Дэвис, Марк; Ким, Чон Бок (1 марта 2019 г.). «Преимущества и проблемы «больших данных»: выводы из корпуса iWeb объемом 14 миллиардов слов». Лингвистические исследования . 36 (1): 1–34. дои : 10.17250/хисли.36.1.201903.001 . ISSN  1229-1374. S2CID  133013527.
  8. ^ "Корпус глобального английского языка в Интернете" . www.english-corpora.org . Проверено 18 декабря 2019 г.

дальнейшее чтение

Внешние ссылки