Список слов (или лексикон ) — это список лексики языка (обычно отсортированный по частоте встречаемости либо по уровням, либо в виде ранжированного списка) в некотором заданном текстовом корпусе , служащий цели приобретения словарного запаса . Лексикон, отсортированный по частоте, «обеспечивает рациональную основу для обеспечения того, чтобы учащиеся получали максимальную отдачу от своих усилий по изучению словарного запаса» (Nation 1997), но в основном предназначен для авторов курсов, а не непосредственно для учащихся. Списки частот также составляются для лексикографических целей и служат своего рода контрольным списком , позволяющим убедиться, что общие слова не упущены. Некоторые основные ошибки — это содержание корпуса, регистр корпуса и определение слова . Хотя подсчету слов уже тысяча лет, а в середине 20-го века вручную все еще проводится гигантский анализ, электронная обработка естественного языка больших массивов, таких как субтитры к фильмам (мегаисследование SUBTLEX), ускорила развитие исследовательской области.
В компьютерной лингвистике список частот — это отсортированный список слов (типов слов) вместе с их частотой , где частота здесь обычно означает количество вхождений в данном корпусе , из которого можно получить ранг как позицию в списке.
Nation (Nation 1997) отметил невероятную помощь, которую оказывают вычислительные возможности, значительно упрощающие корпусный анализ. Он назвал несколько ключевых вопросов, которые влияют на составление списков частот:
Большинство доступных в настоящее время исследований основаны на корпусе письменных текстов , которые более доступны и просты в обработке.
Однако Нью и др. 2007 предложил использовать большое количество субтитров, доступных в Интернете, для анализа большого количества выступлений. Brysbaert & New 2009 провели длинную критическую оценку этого традиционного подхода к анализу текста и поддержали движение к анализу речи и анализу субтитров к фильмам, доступных в Интернете. Недавно за этим последовало несколько последующих исследований [1] , предоставивших ценный анализ частоты встречаемости для различных языков. Действительно, движение SUBTLEX за пять лет завершило полное исследование французского языка (New et al. 2007), американского английского (Brysbaert & New 2009; Brysbaert, New & Keuleers 2012), голландского (Keuleers & New 2010), китайского (Cai & Brysbaert) 2010), испанский (Cuetos et al. 2011), греческий (Dimitropoulou et al. 2010), вьетнамский (Pham, Bolger & Baayen 2011), бразильский португальский (Tang 2012) и португальский португальский (Soares et al. 2015), албанский ( Avdyli & Cuetos 2013), польский (Mandera et al. 2014) и каталанский (2019 [2] ). SUBTLEX-IT (2015) предоставляет только необработанные данные. [3]
В любом случае следует определить базовую единицу «слово». В латинском алфавите слова обычно состоят из одного или нескольких символов, разделенных пробелами или знаками препинания. Но могут возникнуть исключения, такие как английское «can't», французское «aujourd'hui» или идиомы. Также может быть предпочтительнее группировать слова семейства слов по представлению его основного слова . Таким образом, возможный, невозможный, возможность — это слова одного и того же словосочетания, представленные основным словом *possib* . В статистических целях все эти слова суммируются по базовой словоформе *possib*, что позволяет ранжировать появление понятия и формы. Более того, другие языки могут представлять определенные трудности. Так обстоит дело с китайским языком, в котором между словами не используются пробелы и где указанная цепочка из нескольких символов может интерпретироваться либо как фраза, состоящая из слов с уникальными символами, либо как слово из нескольких символов.
Кажется, что закон Ципфа справедлив для списков частот, составленных из более длинных текстов любого естественного языка. Списки частот являются полезным инструментом при создании электронного словаря, который является необходимым условием для широкого спектра приложений в компьютерной лингвистике .
Немецкие лингвисты определяют Häufigkeitsklasse (класс частоты) элемента в списке, используя логарифм по основанию 2 отношения между его частотой и частотой наиболее частого элемента. Самый распространенный элемент относится к классу частоты 0 (нулевой), а любой элемент, который встречается примерно в два раза реже, относится к классу 1. В приведенном выше списке примеров слово возмутительно с ошибкой имеет соотношение 76/3789654 и принадлежит к классу 16.
где функция пола .
Списки частот вместе с семантическими сетями используются для выявления наименее распространенных специализированных терминов, подлежащих замене их гипернимами в процессе семантического сжатия .
Эти списки не предназначены для непосредственного предоставления учащимся, а скорее служат руководством для учителей и авторов учебников (Nation 1997). Краткое описание преподавания современного языка Пола Нэйшна призывает сначала «перейти от высокочастотной лексики и [тематической] лексики специального назначения к низкочастотной лексике, а затем обучать учащихся стратегиям поддержания автономного расширения словарного запаса» (Nation 2006).
Известно, что частота слов имеет различные эффекты (Brysbaert et al. 2011; Rudell 1993). На запоминание положительно влияет более высокая частота слов, вероятно, потому, что учащийся подвергается большему воздействию (Laufer 1997). На лексический доступ положительно влияет высокая частота слов — явление, называемое эффектом частоты слов (Segui et al.). Эффект частоты слов связан с эффектом возраста усвоения , возраста, в котором слово было выучено.
Ниже представлен обзор доступных ресурсов.
Подсчет слов – это древняя область, [4] известная обсуждений которой восходит к эллинистическим временам. В 1944 году Эдвард Торндайк , Ирвин Лордж и коллеги [5] вручную подсчитали 18 000 000 слов и составили первый крупномасштабный список частот английского языка, прежде чем современные компьютеры значительно облегчили такие проекты (Nation 1997). Все произведения ХХ века страдают от возраста. В частности, слова, относящиеся к технологиям, такие как «блог», который в 2014 году занимал 7665-е место по частоте [6] в Корпусе современного американского английского языка, [7], были впервые засвидетельствованы в 1999 году, [8] [9] ] [10] и не фигурирует ни в одном из этих трех списков.
Словарь учителя содержит 30 000 лемм или около 13 000 семейств слов (Goulden, Nation and Read, 1990). Корпус из 18 миллионов письменных слов был проанализирован вручную. Размер исходного корпуса увеличил его полезность, но его возраст и языковые изменения снизили его применимость (Nation 1997).
Список общих услуг содержит 2000 заголовков, разделенных на два набора по 1000 слов. В 1940-х годах был проанализирован корпус из 5 миллионов письменных слов. Приводятся проценты встречаемости (%) различных значений и частей речи заглавного слова. К корпусу тщательно применялись различные критерии, помимо частоты и диапазона. Таким образом, несмотря на свой возраст, некоторые ошибки и то, что его корпус представляет собой полностью письменный текст, он по-прежнему представляет собой отличную базу данных о частоте слов, частоте значений и уменьшении шума (Nation 1997). Этот список был обновлен в 2013 году доктором Чарльзом Брауном, доктором Брентом Каллиганом и Джозефом Филлипсом в качестве Нового списка общих услуг .
Корпус из 5 миллионов бегущих слов из письменных текстов, используемых в школах США (разные классы, различные предметные области). Его ценность заключается в том, что он сосредоточен на школьных учебных материалах и размечает слова по частоте каждого слова в каждом классе школы и в каждой предметной области (Nation 1997).
Сейчас они содержат 1 миллион слов из письменного корпуса, представляющего разные диалекты английского языка. Эти источники используются для составления списков частот (Nation 1997).
Обзор был сделан New & Pallier. Попытка была предпринята в 1950–60-х годах с Français Fundamental. Он включает список FF1 с 1500 высокочастотными словами, дополненный более поздним списком FF2 с 1700 среднечастотными словами, а также наиболее часто используемые правила синтаксиса. [11] Утверждается, что 70 грамматических слов составляют 50% коммуникативного предложения, [12] [13] , а 3680 слов составляют около 95–98% охвата. [14] Доступен список из 3000 часто встречающихся слов. [15]
Министерство образования Франции также предоставило ранжированный список из 1500 наиболее часто встречающихся семейств слов , предоставленный лексикологом Этьеном Брюне. [16] Жан Бодо провел исследование по модели американского исследования Брауна под названием «Частоты использования слов в современном французском языке». [17]
Совсем недавно проект Lexique3 предоставил 142 000 французских слов с орфографией , фонетикой , слогом, частью речи , полом , количеством вхождений в исходном корпусе, частотным рангом, связанными лексемами и т. д., доступными по открытой лицензии CC-by- са-4.0 . [18]
Этот Lexique3 представляет собой непрерывное исследование, из которого зародилось упомянутое выше движение Subtlex. Нью и др. В 2007 году были произведены совершенно новые подсчеты, основанные на субтитрах онлайн-фильмов.
Было проведено несколько исследований частоты испанских слов (Cuetos et al., 2011). [19]
Китайские корпуса уже давно изучаются с точки зрения частотных списков. Исторический способ изучения китайской лексики основан на частоте иероглифов (Allanic 2003). Американский китаевед Джон ДеФрэнсис упомянул о его важности для изучения и преподавания китайского языка в книге « Почему Джонни не может читать по-китайски» (DeFrancis 1966). В качестве инструментария по частоте Да (Da 1998) и Министерство образования Тайваня (TME 1997) предоставили большие базы данных с частотными рангами символов и слов. Список HSK , содержащий 8848 высоко- и среднечастотных слов в Китайской Народной Республике , и ТОП- список Китайской Республики (Тайвань), содержащий около 8600 распространенных традиционных китайских слов, — это два других списка, отображающих распространенные китайские слова и иероглифы. Следуя за движением SUBTLEX, Cai & Brysbaert 2010 недавно провели обширное исследование частоты китайских слов и символов.
Наиболее часто используемые слова на разных языках на основе Википедии или объединенных корпусов. [20]
{{citation}}
: CS1 maint: multiple names: authors list (link)