Список слов

Список слов (или лексикон ) — это список лексики языка (обычно отсортированный по частоте появления либо по уровням, либо в виде ранжированного списка) в пределах некоторого заданного корпуса текстов , служащий для приобретения словарного запаса . Лексикон, отсортированный по частоте, «дает рациональную основу для того, чтобы учащиеся получали наилучшую отдачу от своих усилий по изучению словарного запаса» (Nation 1997), но в основном предназначен для авторов курсов, а не непосредственно для учащихся. Списки частот также создаются для лексикографических целей, выступая в качестве своего рода контрольного списка, чтобы гарантировать, что общие слова не пропущены. Некоторые основные подводные камни — это содержание корпуса, регистр корпуса и определение « слова ». В то время как подсчету слов уже тысяча лет, и гигантский анализ все еще выполнялся вручную в середине 20-го века, электронная обработка больших корпусов на естественном языке, таких как субтитры к фильмам (мегаисследование SUBTLEX), ускорила область исследований.

В компьютерной лингвистике список частот представляет собой отсортированный список слов (типов слов) вместе с их частотой , где частота здесь обычно означает количество появлений в данном корпусе , из которого можно вывести ранг как позицию в списке.

Методология

Факторы

Нейшн (Nation 1997) отметил невероятную помощь, которую оказывают вычислительные возможности, значительно упрощающие корпусный анализ. Он привел несколько ключевых вопросов, которые влияют на построение частотных списков:

репрезентативность корпуса
частота и диапазон слов
обработка семейств слов
обработка идиом и устойчивых выражений
диапазон информации
различные другие критерии

Корпора

Традиционный письменный корпус

Большинство доступных в настоящее время исследований основаны на корпусе письменных текстов , которые более доступны и просты в обработке.

Движение СУБТЛЕКС

Однако Нью и др. 2007 предложили использовать большое количество субтитров, доступных онлайн, для анализа большого количества речей. Брисберт и Нью 2009 провели длительную критическую оценку этого традиционного подхода к текстовому анализу и поддержали переход к анализу речи и анализу субтитров фильмов, доступных онлайн. За этим недавно последовало несколько последующих исследований, ^[1] предоставивших ценный анализ частоты употребления для различных языков. Действительно, движение SUBTLEX завершило за пять лет полные исследования для французского (New et al. 2007), американского английского (Brysbaert & New 2009; Brysbaert, New & Keuleers 2012), голландского (Keuleers & New 2010), китайского (Cai & Brysbaert 2010), испанского (Cuetos et al. 2011), греческого (Dimitropoulou et al. 2010), вьетнамского (Pham, Bolger & Baayen 2011), бразильского португальского (Tang 2012) и португальского португальского (Soares et al. 2015), албанского (Avdyli & Cuetos 2013), польского (Mandera et al. 2014) и каталонского (2019 ^[2] ). SUBTLEX-IT (2015) предоставляет только необработанные данные. ^[3]

Лексическая единица

В любом случае следует определить базовую единицу «слово». Для латинских алфавитов слова обычно представляют собой один или несколько символов, разделенных пробелами или знаками препинания. Но могут возникнуть исключения, такие как английское «can't», французское «aujourd'hui» или идиомы. Также может быть предпочтительнее сгруппировать слова семейства слов под представлением его базового слова . Таким образом, possible, impossible, opportunities являются словами одного и того же семейства слов, представленного базовым словом *possib* . Для статистических целей все эти слова суммируются под базовой формой слова *possib*, что позволяет ранжировать возникновение концепции и формы. Более того, другие языки могут представлять определенные трудности. Так обстоит дело с китайским языком, в котором не используются пробелы между словами, и где указанная цепочка из нескольких символов может быть интерпретирована либо как фраза из слов с уникальными символами, либо как многосимвольное слово.

Статистика

Похоже, что закон Ципфа справедлив для списков частот, составленных из более длинных текстов любого естественного языка. Списки частот являются полезным инструментом при создании электронного словаря, что является предпосылкой для широкого спектра приложений в компьютерной лингвистике .

Немецкие лингвисты определяют Häufigkeitsklasse (частотный класс) элемента в списке, используя логарифм по основанию 2 отношения между его частотой и частотой наиболее частого элемента. Наиболее распространенный элемент принадлежит к частотному классу 0 (ноль), а любой элемент, который встречается примерно в два раза реже, принадлежит к классу 1. В приведенном выше примере списка неправильно написанное слово outragious имеет отношение 76/3789654 и принадлежит к классу 16. $N$

N=\left\lfloor 0.5-\log _{2}\left({\frac {\text{Frequency of this item}}{\text{Frequency of most common item}}}\right)\right\rfloor

где - функция пола . $\lfloor \ldots \rfloor$

Частотные списки вместе с семантическими сетями используются для выявления наименее распространенных специализированных терминов, которые следует заменить их гипернимами в процессе семантической компрессии .

Педагогика

Эти списки не предназначены для прямой передачи студентам, а скорее служат руководством для учителей и авторов учебников (Nation 1997). Краткое изложение современного преподавания языка Пола Нейшена призывает сначала «перейти от высокочастотной лексики и специальной [тематической] лексики к низкочастотной лексике, а затем научить учащихся стратегиям поддержания автономного расширения словарного запаса» (Nation 2006).

Эффекты частоты слов

Известно, что частота слов имеет различные эффекты (Brysbaert et al. 2011; Rudell 1993). На запоминание положительно влияет более высокая частота слов, вероятно, потому, что обучающийся подвергается большему воздействию (Laufer 1997). На лексический доступ положительно влияет высокая частота слов, явление, называемое эффектом частоты слов (Segui et al.). Эффект частоты слов связан с эффектом возраста приобретения , то есть возраста, в котором слово было изучено.

Языки

Ниже представлен обзор доступных ресурсов.

Английский

Подсчет слов — это древняя область ^[4] , известная своими дискуссиями со времен эллинизма . В 1944 году Эдвард Торндайк , Ирвин Лордж и коллеги ^[5] вручную подсчитали 18 000 000 бегущих слов, чтобы составить первый крупномасштабный список частотности английского языка, прежде чем современные компьютеры значительно упростили такие проекты (Nation 1997). Все работы 20-го века страдают от своего возраста. В частности, слова, относящиеся к технологиям, такие как «блог», который в 2014 году занимал 7665-е место по частоте ^[6] в Корпусе современного американского английского языка ^[7] , впервые были засвидетельствованы в 1999 году ^[8]^[9]^[10] и не фигурируют ни в одном из этих трех списков.

Словарь учителя из 30 000 слов (Торндайк и Лордж, 1944)

Teacher Word Book содержит 30 000 лемм или ~13 000 семейств слов (Goulden, Nation and Read, 1990). Корпус из 18 миллионов написанных слов был проанализирован вручную. Размер исходного корпуса увеличил его полезность, но его возраст и изменения языка снизили его применимость (Nation 1997).

Список генеральных служащих (Запад, 1953)

Список общих служебных слов содержит 2000 заглавных слов, разделенных на два набора по 1000 слов. Корпус из 5 миллионов письменных слов был проанализирован в 1940-х годах. Приведена частота встречаемости (%) для различных значений и частей речи заглавного слова. К корпусу были тщательно применены различные критерии, помимо частоты и диапазона. Таким образом, несмотря на его возраст, некоторые ошибки и то, что его корпус представляет собой полностью письменный текст, он по-прежнему является превосходной базой данных частоты слов, частоты значений и снижения шума (Nation 1997). Этот список был обновлен в 2013 году доктором Чарльзом Брауном, доктором Брентом Каллиганом и Джозефом Филлипсом как Новый список общих служебных слов .

Частотный справочник слов «Американское наследие» (Кэрролл, Дэвис и Ричман, 1971)

Корпус из 5 миллионов бегущих слов из письменных текстов, используемых в школах США (различные классы, различные предметные области). Его ценность заключается в его фокусе на школьных учебных материалах и его разметке слов по частоте каждого слова, в каждом школьном классе и в каждой предметной области (Nation 1997).

Brown (Francis and Kucera, 1982) LOB и связанные с ним корпуса

Теперь они содержат 1 миллион слов из письменного корпуса, представляющего различные диалекты английского языка. Эти источники используются для создания списков частот (Nation 1997).

Французский

Традиционные наборы данных

Обзор был сделан New & Pallier. Попытка была сделана в 1950-60-х годах с Français Fundamental. Он включает список FF1 с 1500 высокочастотными словами, дополненный более поздним списком FF2 с 1700 среднечастотными словами и наиболее используемыми правилами синтаксиса. ^[11] Утверждается, что 70 грамматических слов составляют 50% коммуникативного предложения, ^[12]^[13] в то время как 3680 слов составляют около 95~98% покрытия. ^[14] Доступен список из 3000 часто встречающихся слов. ^[15]

Министерство образования Франции также предоставило ранжированный список из 1500 наиболее часто встречающихся семейств слов , составленный лексикологом Этьеном Брюне. ^[16] Жан Бодо провел исследование по образцу американского исследования Брауна под названием «Частота использования современных французских слов». ^[17]

Совсем недавно проект Lexique3 предоставил 142 000 французских слов с орфографией , фонетикой , слоговым делением, частью речи , родом , количеством употреблений в исходном корпусе, рангом частотности, связанными лексемами и т. д., доступных по открытой лицензии CC-by-sa-4.0 . ^[18]

Субтлекс

Этот Lexique3 является непрерывным исследованием, из которого возникло движение Subtlex, упомянутое выше. New et al. 2007 сделал совершенно новый подсчет на основе онлайн-субтитров фильмов.

испанский

Было проведено несколько исследований частоты употребления испанских слов (Cuetos et al. 2011). ^[19]

китайский

Китайские корпусы давно изучаются с точки зрения списков частот. Исторический способ изучения китайского словарного запаса основан на частоте иероглифов (Allanic 2003). Американский синолог Джон ДеФрэнсис упомянул его важность для изучения и преподавания китайского языка как иностранного в книге Почему Джонни не может читать по-китайски (DeFrancis 1966). В качестве инструментария по частоте Да (Da 1998) и Министерство образования Тайваня (TME 1997) предоставили большие базы данных с рангами частот для иероглифов и слов. Список HSK из 8848 высоко- и среднечастотных слов в Китайской Народной Республике и список TOP Китайской Республики (Тайвань) из примерно 8600 распространенных традиционных китайских слов — это два других списка, отображающих распространенные китайские слова и иероглифы. Следуя движению SUBTLEX, Cai & Brysbaert 2010 недавно провели обширное исследование частот китайских слов и иероглифов.

Другой

Викисловарь:Списки частот содержит списки частот на большем количестве языков. ^[20]

Наиболее часто используемые слова на разных языках по данным Википедии или объединенных корпусов. ^[21]

Смотрите также

Частота букв
Наиболее распространенные слова в английском языке
Длинный хвост
Google Ngram Viewer – показывает изменения в частоте слов/фраз (и относительной частоте) с течением времени.

Примечания

^ "Crr » Частоты слов в субтитрах".
^ Боада, Роджер; Гуаш, Марк; Аро, Хуан; Деместре, Хосеп; Ферре, Пилар (1 февраля 2020 г.). «SUBTLEX-CAT: Частоты слов в субтитрах и контекстное разнообразие для каталонского языка». Методы исследования поведения . 52 (1): 360–375. doi : 10.3758/s13428-019-01233-1 . ISSN 1554-3528. PMID 30895456. S2CID 84843788.
^ Амента, Симона; Мандера, Павел; Кёулерс, Эммануэль; Брисберт, Марк; Крепальди, Давиде (7 января 2022 г.). «SUBTLEX-IT».
^ Бонтрагер, Терри (1 апреля 1991 г.). «Развитие списков частотности слов до списка Торндайка-Лорге 1944 г.». Психология чтения . 12 (2): 91–116. doi :10.1080/0270271910120201. ISSN 0270-2711.
^ "APA PsycNet". psycnet.apa.org . Проверено 15 мая 2023 г.
^ «Слова и фразы: частота, жанры, сочетания, соответствия, синонимы и WordNet».
^ «Корпус современного американского английского языка (COCA)».
^ "Это ссылки, глупый". The Economist. 20 апреля 2006 г. Получено 05.06.2008 г.
^ Merholz, Peter (1999). "Peterme.com". Архив Интернета . Архивировано из оригинала 13 октября 1999 г. Получено 05 июня 2008 г.
↑ Коттке, Джейсон (26 августа 2003 г.). "kottke.org" . Получено 05.06.2008 .
^ "Фундаментальный французский язык" . Архивировано из оригинала 4 июля 2010 г.
^ Узулиас, Андре (2004), Comprendre et aider les enfants en Трудные школьники: Le Vocabulaire Fondamental, 70 основных слов (PDF) , Retz- Ссылаясь на VAC Henmon (ссылка не работает, копия в интернет-архиве отсутствует, 10 августа 2023 г.)
^ Список последних "70 основных моментов" VAC Henmon
^ «Общие сведения».
^ "PDF 3000 французских слов".
^ "Maitrise de la langue à l'école: Vocabulaire" . Министр национального образования.
^ Бодо, Ж. (1992), Частоты использования слов во французском языке écrit contemporain , Presses de L'Université, ISBN 978-2-7606-1563-2
^ "Лексика".
^ "Списки частотности испанских слов". Vocabularywiki.pbworks.com .
↑ Викисловарь:Списки частот, 21 июля 2024 г.
^ Наиболее часто используемые слова в разных языках, ezglot

Ссылки

Найдите Викисловарь:Списки частот в Викисловаре, бесплатном словаре.

Теоретические концепции

Нейшн, П. (1997), «Размер словарного запаса, текстовое покрытие и списки слов», в Шмитте; Маккарти (ред.), Словарный запас: описание, приобретение и педагогика , Кембридж: Cambridge University Press, стр. 6–19, ISBN 978-0-521-58551-4
Лауфер, Б. (1997), «Что в слове делает его трудным или легким? Некоторые внутрилексические факторы, влияющие на изучение слов», Словарь: описание, усвоение и педагогика , Кембридж: Cambridge University Press, стр. 140–155, ISBN 9780521585514
Нейшн, П. (2006), «Языковое образование — словарный запас», Энциклопедия языка и лингвистики , Оксфорд: 494–499, doi :10.1016/B0-08-044854-2/00678-7, ISBN 9780080448541.
Brysbaert, Marc; Buchmeier, Matthias; Conrad, Markus; Jacobs, Arthur M.; Bölte, Jens; Böhl, Andrea (2011). «Эффект частоты слов: обзор последних разработок и последствий для выбора оценок частоты в немецком языке». Experimental Psychology . 58 (5): 412–424. doi :10.1027/1618-3169/a000123. PMID 21768069.база данных
Руделл, А.П. (1993), «Частота использования слов и воспринимаемая сложность слов: рейтинги слов Кучеры и Фрэнсиса», Most , т. 25, стр. 455–463
Сеги, Дж.; Мелер, Жак; Фрауэнфельдер, Ули; Мортон, Джон (1982), «Эффект частоты слов и лексический доступ», Neuropsychologia , 20 (6): 615–627, doi :10.1016/0028-3932(82)90061-6, PMID 7162585, S2CID 39694258
Мейер, Хельмут (1967), Deutsche Sprachstatistik , Хильдесхайм: Олмс(частотный список немецких слов)
ДеФрэнсис, Джон (1966), Почему Джонни не умеет читать по-китайски
Алланик, Бернар (2003), Корпус персонажей и их педагогический аспект в древнем и современном Китае (фр.: Les corpus de caractères et leur Dimension pédagogique dans la Chine ancienne et contemporaine) (These de Doctorat), Париж: INALCO

Базы данных на основе письменных текстов

Da, Jun (1998), Jun Da: вычисления китайского текста , получено 21 августа 2010 г..
Министерство образования Тайваня (1997), 八十六年常用語詞調查報告書, получено 21 августа 2010 г..
Новый, Борис; Палье, Кристоф, Мануэль де Лексик 3 (на французском языке) (изд. 3.01).
Хименес, Мануэль; Нью, Борис (2016), «Worldlex: частоты употребления слов в Twitter и блогах для 66 языков», Методы исследования поведения , 48 (3): 963–972, doi : 10.3758/s13428-015-0621-0 , ISSN 1554-3528, PMID 26170053.

Движение СУБТЛЕКС

New, B.; Brysbaert, M.; Veronis, J.; Pallier, C. (2007). "SUBTLEX-FR: использование субтитров фильмов для оценки частотности слов" (PDF) . Прикладная психолингвистика . 28 (4): 661. doi :10.1017/s014271640707035x. hdl : 1854/LU-599589 . S2CID 145366468. Архивировано из оригинала (PDF) 24.10.2016.
Brysbaert, Marc; New, Борис (2009), «Выход за рамки Кучеры и Фрэнсиса: критическая оценка текущих норм частоты слов и введение нового и улучшенного показателя частоты слов для американского английского» (PDF) , Behavior Research Methods , 41 (4): 977–990, doi : 10.3758/brm.41.4.977 , PMID 19897807, S2CID 4792474
Keuleers, E, M, B.; New, B. (2010), «SUBTLEX--NL: новая мера частоты употребления голландских слов на основе субтитров к фильмам», Behavior Research Methods , 42 (3): 643–650, doi : 10.3758/brm.42.3.643 , PMID 20805586{{citation}}: CS1 maint: multiple names: authors list (link)
Cai, Q.; Brysbaert, M. (2010), "SUBTLEX-CH: Частота китайских слов и символов на основе субтитров к фильмам", PLOS ONE , 5 (6): 8, Bibcode : 2010PLoSO...510729C, doi : 10.1371/journal.pone.0010729 , PMC 2880003 , PMID 20532192
Куэтос, Ф.; Глезности, Мария; Барбон, Аналия; Брисберт, Марк (2011), «SUBTLEX-ESP: частота испанских слов на основе субтитров к фильмам» (PDF) , Psicológica , 32 : 133–143
Димитропулу, М.; Дуньябейтиа, Джон Андони; Авилес, Альберто; Корраль, Хосе; Каррейрас, Мануэль (2010), «SUBTLEX-GR: Частота слов на основе субтитров как лучшая оценка поведения при чтении: случай греческого языка», Frontiers in Psychology , 1 (декабрь): 12, doi : 10.3389/fpsyg.2010.00218 , PMC 3153823 , PMID 21833273
Фам, Х.; Болджер, П.; Баайен, Р.Х. (2011), «SUBTLEX-VIE: измерение частоты вьетнамских слов и символов в субтитрах фильмов», ACOL
Брисберт, М.; Нью, Борис; Кейлерс, Э. (2012), «SUBTLEX-US: Добавление информации о частях речи к частотным показателям слов SUBTLEXus» (PDF) , Методы исследования поведения : 1–22(базы данных)
Mandera, P.; Keuleers, E.; Wodniecka, Z.; Brysbaert, M. (2014). "Subtlex-pl: оценки частоты слов на основе субтитров для польского языка" (PDF) . Behav Res Methods . 47 (2): 471–483. doi :10.3758/s13428-014-0489-4. PMID 24942246. S2CID 2334688.
Тан, К. (2012), «Корпус субтитров к фильмам на бразильском португальском языке объемом 61 миллион слов как ресурс для лингвистических исследований», UCL Work Pap Linguist (24): 208–214
Avdyli, Rrezarta; Cuetos, Fernando (июнь 2013 г.), «SUBTLEX-AL: частоты албанских слов на основе субтитров к фильмам», ILIRIA International Review , 3 (1): 285–292, doi : 10.21113/iir.v3i1.112 (неактивен 28 августа 2024 г.), ISSN 2365-8592{{citation}}: CS1 maint: DOI inactive as of August 2024 (link)
Соарес, Ана Паула; Мачадо, Жуан; Коста, Ана; Ириарте, Альваро; Симоэнс, Альберто; де Алмейда, Жозе Жуан; Комесанья, Монтсеррат; Переа, Мануэль (апрель 2015 г.), «О преимуществах измерения частоты слов и контекстуального разнообразия, извлеченных из субтитров: случай португальского языка», The Quarterly Journal of Experimental Psychology , 68 (4): 680–696, doi : 10.1080/17470218.2014 .964271, PMID 25263599, S2CID 5376519

Эта статья включает в себя список списков, связанных с языком .
Если внутренняя ссылка неправильно привела вас сюда, вы можете изменить ссылку, чтобы она указывала прямо на нужную статью.