Исследования, оценивающие и ранжирующие наиболее распространенные слова в английском языке, изучают тексты, написанные на английском языке. Возможно, наиболее всеобъемлющий такой анализ был проведен в отношении Oxford English Corpus (OEC), огромного корпуса текстов , написанных на английском языке.
В общей сложности тексты в Оксфордском корпусе английского языка содержат более 2 миллиардов слов. [1] OEC включает в себя широкий спектр образцов письменных работ, таких как литературные произведения, романы, академические журналы, газеты, парламентские дебаты Гансарда , блоги , чат-логи и электронные письма. [2]
Другой английский корпус, который использовался для изучения частоты слов, — это Brown Corpus , который был составлен исследователями из Университета Брауна в 1960-х годах. Исследователи опубликовали свой анализ Brown Corpus в 1967 году. Их выводы были похожи, но не идентичны результатам анализа OEC.
Согласно The Reading Teacher's Book of Lists , первые 25 слов OEC составляют около трети всех печатных материалов на английском языке, а первые 100 слов составляют около половины всех письменных английских текстов. [3] Согласно исследованию, цитируемому Робертом МакКрамом в The Story of English , все первые сто наиболее распространенных слов в английском языке имеют древнеанглийское происхождение, [4] за исключением «people», в конечном итоге происходящего от латинского «populus», и «because», частично от латинского «causa».
Некоторые списки общих слов различают формы слов , в то время как другие ранжируют все формы слова как одну лексему (форму слова, как оно будет выглядеть в словаре). Например, лексема be (как в to be ) включает в себя все свои спряжения ( is , was , am , are , were и т. д.) и сокращения этих спряжений. [5] Эти 100 лучших лемм, перечисленных ниже, составляют 50% всех слов в Оксфордском корпусе английского языка. [1]
Ниже приведен список из 100 слов, которые чаще всего встречаются в письменном английском языке, основанный на анализе Оксфордского корпуса английского языка (собрание текстов на английском языке, включающее более 2 миллиардов слов). [1] Для большинства слов указана часть речи , но категории частей речи различаются в зависимости от анализа, и не все возможности перечислены. Например, «I» может быть местоимением или римской цифрой; «to» может быть предлогом или маркером инфинитива; «time» может быть существительным или глаголом. Кроме того, одно написание может представлять более одного корневого слова . Например, «singer» может быть формой либо «sing», либо «singe». Разные корпуса могут по-разному трактовать такое различие.
Число различных значений, перечисленных в Викисловаре , показано в колонке полисемии . Например, «out» может относиться к побегу, удалению из игры в бейсболе или любому из 36 других понятий. В среднем каждое слово в списке имеет 15,38 значений. Количество значений не включает использование терминов во фразовых глаголах, таких как «put out» (как в «inconvenienced») и других многословных выражениях, таких как междометие «get out!», где слово «out» не имеет индивидуального значения. [6] Например, «out» встречается как минимум в 560 фразовых глаголах [7] и появляется почти в 1700 многословных выражениях. [8]
Таблица также включает частоты из других корпусов. Помимо различий в использовании, лемматизация может отличаться от корпуса к корпусу — например, разделение предложного использования "to" от использования в качестве частицы. Кроме того, список Корпуса современного американского английского языка (COCA) включает дисперсию, а также частоту для расчета ранга.
Ниже приведен очень похожий список, также из OEC, разделенный по частям речи . [1] Список под названием «Другие» включает местоимения , притяжательные местоимения , артикли , модальные глаголы , наречия и союзы .