Список слов (или лексикон ) — это список лексики языка (обычно отсортированный по частоте появления либо по уровням, либо в виде ранжированного списка) в пределах некоторого заданного корпуса текстов , служащий для приобретения словарного запаса . Лексикон, отсортированный по частоте, «дает рациональную основу для того, чтобы учащиеся получали наилучшую отдачу от своих усилий по изучению словарного запаса» (Nation 1997), но в основном предназначен для авторов курсов, а не непосредственно для учащихся. Списки частот также создаются для лексикографических целей, выступая в качестве своего рода контрольного списка, чтобы гарантировать, что общие слова не пропущены. Некоторые основные подводные камни — это содержание корпуса, регистр корпуса и определение « слова ». В то время как подсчету слов уже тысяча лет, и гигантский анализ все еще выполнялся вручную в середине 20-го века, электронная обработка больших корпусов на естественном языке, таких как субтитры к фильмам (SUBTLEX megastudy), ускорила область исследований.
В компьютерной лингвистике список частот представляет собой отсортированный список слов (типов слов) вместе с их частотой , где частота здесь обычно означает количество появлений в данном корпусе , из которого можно вывести ранг как позицию в списке.
Нейшн (Nation 1997) отметил невероятную помощь, которую оказывают вычислительные возможности, значительно упрощающие корпусный анализ. Он привел несколько ключевых вопросов, которые влияют на построение частотных списков:
Большинство доступных в настоящее время исследований основаны на корпусе письменных текстов , которые более доступны и просты в обработке.
Однако Нью и др. 2007 предложили использовать большое количество субтитров, доступных онлайн, для анализа большого количества речей. Брисберт и Нью 2009 провели длительную критическую оценку этого традиционного подхода к текстовому анализу и поддержали переход к анализу речи и анализу субтитров фильмов, доступных онлайн. За этим недавно последовало несколько последующих исследований, [1] предоставивших ценный анализ частоты употребления для различных языков. Действительно, движение SUBTLEX завершило за пять лет полные исследования для французского (New et al. 2007), американского английского (Brysbaert & New 2009; Brysbaert, New & Keuleers 2012), голландского (Keuleers & New 2010), китайского (Cai & Brysbaert 2010), испанского (Cuetos et al. 2011), греческого (Dimitropoulou et al. 2010), вьетнамского (Pham, Bolger & Baayen 2011), бразильского португальского (Tang 2012) и португальского португальского (Soares et al. 2015), албанского (Avdyli & Cuetos 2013), польского (Mandera et al. 2014) и каталонского (2019 [2] ). SUBTLEX-IT (2015) предоставляет только необработанные данные. [3]
В любом случае следует определить базовую единицу «слово». Для латинских алфавитов слова обычно представляют собой один или несколько символов, разделенных пробелами или знаками препинания. Но могут возникнуть исключения, такие как английское «can't», французское « aujourd'hui » или идиомы. Также может быть предпочтительнее сгруппировать слова семейства слов под представлением его базового слова . Таким образом, possible, impossible, opportunities являются словами одного и того же семейства слов, представленного базовым словом *possib* . Для статистических целей все эти слова суммируются под базовой формой слова *possib*, что позволяет ранжировать возникновение концепции и формы. Более того, другие языки могут представлять определенные трудности. Так обстоит дело с китайским языком, в котором не используются пробелы между словами, и где указанная цепочка из нескольких символов может быть интерпретирована либо как фраза из слов с уникальными символами, либо как многосимвольное слово.
Похоже, что закон Ципфа справедлив для списков частот, составленных из более длинных текстов любого естественного языка. Списки частот являются полезным инструментом при создании электронного словаря, что является предпосылкой для широкого спектра приложений в компьютерной лингвистике .
Немецкие лингвисты определяют Häufigkeitsklasse (частотный класс) элемента в списке, используя логарифм по основанию 2 отношения между его частотой и частотой наиболее частого элемента. Наиболее распространенный элемент принадлежит к частотному классу 0 (ноль), а любой элемент, который встречается примерно в два раза реже, принадлежит к классу 1. В приведенном выше примере списка неправильно написанное слово outragious имеет отношение 76/3789654 и принадлежит к классу 16.
где - функция пола .
Частотные списки вместе с семантическими сетями используются для выявления наименее распространенных специализированных терминов, которые следует заменить их гипернимами в процессе семантической компрессии .
Эти списки не предназначены для прямой передачи студентам, а скорее служат руководством для учителей и авторов учебников (Nation 1997). Краткое изложение современного преподавания языка Пола Нейшена призывает сначала «перейти от высокочастотной лексики и специальной [тематической] лексики к низкочастотной лексике, а затем научить учащихся стратегиям поддержания автономного расширения словарного запаса» (Nation 2006).
Известно, что частота слов имеет различные эффекты (Brysbaert et al. 2011; Rudell 1993). На запоминание положительно влияет более высокая частота слов, вероятно, потому, что обучающийся подвергается большему воздействию (Laufer 1997). На лексический доступ положительно влияет высокая частота слов, явление, называемое эффектом частоты слов (Segui et al.). Эффект частоты слов связан с эффектом возраста приобретения , то есть возраста, в котором слово было изучено.
Ниже представлен обзор доступных ресурсов.
Подсчет слов — это древняя область [4] , известная своими дискуссиями со времен эллинизма . В 1944 году Эдвард Торндайк , Ирвин Лордж и коллеги [5] вручную подсчитали 18 000 000 бегущих слов, чтобы составить первый крупномасштабный список частотности английского языка, прежде чем современные компьютеры значительно упростили такие проекты (Nation 1997). Все работы 20-го века страдают от своего возраста. В частности, слова, относящиеся к технологиям, такие как «блог», который в 2014 году занимал 7665-е место по частоте [6] в Корпусе современного американского английского языка [7] , впервые были засвидетельствованы в 1999 году [8] [9] [10] и не фигурируют ни в одном из этих трех списков.
Teacher Word Book содержит 30 000 лемм или ~13 000 семейств слов (Goulden, Nation and Read, 1990). Корпус из 18 миллионов написанных слов был проанализирован вручную. Размер исходного корпуса увеличил его полезность, но его возраст и изменения языка снизили его применимость (Nation 1997).
Список общих служебных слов содержит 2000 заглавных слов, разделенных на два набора по 1000 слов. Корпус из 5 миллионов письменных слов был проанализирован в 1940-х годах. Приведена частота встречаемости (%) для различных значений и частей речи заглавного слова. К корпусу были тщательно применены различные критерии, помимо частоты и диапазона. Таким образом, несмотря на его возраст, некоторые ошибки и то, что его корпус представляет собой полностью письменный текст, он по-прежнему является превосходной базой данных частоты слов, частоты значений и снижения шума (Nation 1997). Этот список был обновлен в 2013 году доктором Чарльзом Брауном, доктором Брентом Каллиганом и Джозефом Филлипсом как Новый список общих служебных слов .
Корпус из 5 миллионов бегущих слов из письменных текстов, используемых в школах США (различные классы, различные предметные области). Его ценность заключается в его фокусе на школьных учебных материалах и его разметке слов по частоте каждого слова, в каждом школьном классе и в каждой предметной области (Nation 1997).
Теперь они содержат 1 миллион слов из письменного корпуса, представляющего различные диалекты английского языка. Эти источники используются для создания списков частот (Nation 1997).
Обзор был сделан New & Pallier. Попытка была сделана в 1950-60-х годах с Français Fundamental. Он включает список FF1 с 1500 высокочастотными словами, дополненный более поздним списком FF2 с 1700 среднечастотными словами и наиболее используемыми правилами синтаксиса. [11] Утверждается, что 70 грамматических слов составляют 50% коммуникативного предложения, [12] [13] в то время как 3680 слов составляют около 95~98% покрытия. [14] Доступен список из 3000 часто встречающихся слов. [15]
Министерство образования Франции также предоставило ранжированный список из 1500 наиболее часто встречающихся семейств слов , составленный лексикологом Этьеном Брюне. [16] Жан Бодо провел исследование по образцу американского исследования Брауна под названием «Частота использования современных французских выражений». [17]
Совсем недавно проект Lexique3 предоставил 142 000 французских слов с орфографией , фонетикой , слогами, частями речи , родом , количеством употреблений в исходном корпусе, рангом частотности, связанными лексемами и т. д., доступных по открытой лицензии CC-by-sa-4.0 . [18]
Этот Lexique3 является непрерывным исследованием, из которого возникло движение Subtlex, упомянутое выше. New et al. 2007 сделал совершенно новый подсчет на основе онлайн-субтитров фильмов.
Было проведено несколько исследований частоты употребления испанских слов (Cuetos et al. 2011). [19]
Китайские корпусы давно изучаются с точки зрения частотных списков. Исторический способ изучения китайского словарного запаса основан на частоте иероглифов (Allanic 2003). Американский синолог Джон ДеФрэнсис упомянул его важность для изучения и преподавания китайского языка как иностранного в книге Почему Джонни не может читать по-китайски (DeFrancis 1966). В качестве инструментария по частоте Да (Da 1998) и Министерство образования Тайваня (TME 1997) предоставили большие базы данных с рангами частот для иероглифов и слов. Список HSK из 8848 высоко- и среднечастотных слов в Китайской Народной Республике и список TOP Китайской Республики (Тайвань) из примерно 8600 распространенных традиционных китайских слов — это два других списка, отображающих распространенные китайские слова и иероглифы. Следуя движению SUBTLEX, Cai & Brysbaert 2010 недавно провели обширное исследование частот китайских слов и иероглифов.
Викисловарь:Списки частот содержит списки частот на большем количестве языков. [20]
Наиболее часто используемые слова на разных языках по данным Википедии или объединенных корпусов. [21]
{{citation}}
: CS1 maint: multiple names: authors list (link){{citation}}
: CS1 maint: DOI inactive as of November 2024 (link)