stringtranslate.com

Список слов

Список слов (или лексикон ) — это список лексики языка (обычно отсортированный по частоте встречаемости либо по уровням, либо в виде ранжированного списка) в некотором заданном текстовом корпусе , служащий цели приобретения словарного запаса . Лексикон, отсортированный по частоте, «обеспечивает рациональную основу для обеспечения того, чтобы учащиеся получали максимальную отдачу от своих усилий по изучению словарного запаса» (Nation 1997), но в основном предназначен для авторов курсов, а не непосредственно для учащихся. Списки частот также составляются для лексикографических целей и служат своего рода контрольным списком , позволяющим убедиться, что общие слова не упущены. Некоторые основные ошибки — это содержание корпуса, регистр корпуса и определение слова . Хотя подсчету слов уже тысяча лет, а в середине 20-го века вручную все еще проводится гигантский анализ, электронная обработка естественного языка больших массивов, таких как субтитры к фильмам (мегаисследование SUBTLEX), ускорила развитие исследовательской области.

В компьютерной лингвистике список частот — это отсортированный список слов (типов слов) вместе с их частотой , где частота здесь обычно означает количество вхождений в данном корпусе , из которого можно получить ранг как позицию в списке.

Методология

Факторы

Nation (Nation 1997) отметил невероятную помощь, которую оказывают вычислительные возможности, значительно упрощающие корпусный анализ. Он назвал несколько ключевых вопросов, которые влияют на составление списков частот:

Корпора

Традиционный письменный корпус

Частота личных местоимений в сербохорватском языке

Большинство доступных в настоящее время исследований основаны на корпусе письменных текстов , которые более доступны и просты в обработке.

СУБТЛЕКС движение

Однако Нью и др. 2007 предложил использовать большое количество субтитров, доступных в Интернете, для анализа большого количества выступлений. Brysbaert & New 2009 провели длинную критическую оценку этого традиционного подхода к анализу текста и поддержали движение к анализу речи и анализу субтитров к фильмам, доступных в Интернете. Недавно за этим последовало несколько последующих исследований [1] , предоставивших ценный анализ частоты встречаемости для различных языков. Действительно, движение SUBTLEX за пять лет завершило полное исследование французского языка (New et al. 2007), американского английского (Brysbaert & New 2009; Brysbaert, New & Keuleers 2012), голландского (Keuleers & New 2010), китайского (Cai & Brysbaert) 2010), испанский (Cuetos et al. 2011), греческий (Dimitropoulou et al. 2010), вьетнамский (Pham, Bolger & Baayen 2011), бразильский португальский (Tang 2012) и португальский португальский (Soares et al. 2015), албанский ( Avdyli & Cuetos 2013), польский (Mandera et al. 2014) и каталанский (2019 [2] ). SUBTLEX-IT (2015) предоставляет только необработанные данные. [3]

Лексическая единица

В любом случае следует определить базовую единицу «слово». В латинском алфавите слова обычно состоят из одного или нескольких символов, разделенных пробелами или знаками препинания. Но могут возникнуть исключения, такие как английское «can't», французское «aujourd'hui» или идиомы. Также может быть предпочтительнее группировать слова семейства слов по представлению его основного слова . Таким образом, возможный, невозможный, возможность — это слова одного и того же словосочетания, представленные основным словом *possib* . В статистических целях все эти слова суммируются по базовой словоформе *possib*, что позволяет ранжировать появление понятия и формы. Более того, другие языки могут представлять определенные трудности. Так обстоит дело с китайским языком, в котором между словами не используются пробелы и где указанная цепочка из нескольких символов может интерпретироваться либо как фраза, состоящая из слов с уникальными символами, либо как слово из нескольких символов.

Статистика

Кажется, что закон Ципфа справедлив для списков частот, составленных из более длинных текстов любого естественного языка. Списки частот являются полезным инструментом при создании электронного словаря, который является необходимым условием для широкого спектра приложений в компьютерной лингвистике .

Немецкие лингвисты определяют Häufigkeitsklasse (класс частоты) элемента в списке, используя логарифм по основанию 2 отношения между его частотой и частотой наиболее частого элемента. Самый распространенный элемент относится к классу частоты 0 (нулевой), а любой элемент, который встречается примерно в два раза реже, относится к классу 1. В приведенном выше списке примеров слово возмутительно с ошибкой имеет соотношение 76/3789654 и принадлежит к классу 16.

где функция пола .

Списки частот вместе с семантическими сетями используются для выявления наименее распространенных специализированных терминов, подлежащих замене их гипернимами в процессе семантического сжатия .

Педагогика

Эти списки не предназначены для непосредственного предоставления учащимся, а скорее служат руководством для учителей и авторов учебников (Nation 1997). Краткое описание преподавания современного языка Пола Нэйшна призывает сначала «перейти от высокочастотной лексики и [тематической] лексики специального назначения к низкочастотной лексике, а затем обучать учащихся стратегиям поддержания автономного расширения словарного запаса» (Nation 2006).

Влияние частоты слов

Известно, что частота слов имеет различные эффекты (Brysbaert et al. 2011; Rudell 1993). На запоминание положительно влияет более высокая частота слов, вероятно, потому, что учащийся подвергается большему воздействию (Laufer 1997). На лексический доступ положительно влияет высокая частота слов — явление, называемое эффектом частоты слов (Segui et al.). Эффект частоты слов связан с эффектом возраста усвоения , возраста, в котором слово было выучено.

Языки

Ниже представлен обзор доступных ресурсов.

Английский

Подсчет слов – это древняя область, [4] известная обсуждений которой восходит к эллинистическим временам. В 1944 году Эдвард Торндайк , Ирвин Лордж и коллеги [5] вручную подсчитали 18 000 000 слов и составили первый крупномасштабный список частот английского языка, прежде чем современные компьютеры значительно облегчили такие проекты (Nation 1997). Все произведения ХХ века страдают от возраста. В частности, слова, относящиеся к технологиям, такие как «блог», который в 2014 году занимал 7665-е место по частоте [6] в Корпусе современного американского английского языка, [7], были впервые засвидетельствованы в 1999 году, [8] [9] ] [10] и не фигурирует ни в одном из этих трех списков.

Словарь учителей на 30 000 слов (Торндайк и Лорхе, 1944 г.)

Словарь учителя содержит 30 000 лемм или около 13 000 семейств слов (Goulden, Nation and Read, 1990). Корпус из 18 миллионов письменных слов был проанализирован вручную. Размер исходного корпуса увеличил его полезность, но его возраст и языковые изменения снизили его применимость (Nation 1997).

Список общих служб (Запад, 1953 г.)

Список общих услуг содержит 2000 заголовков, разделенных на два набора по 1000 слов. В 1940-х годах был проанализирован корпус из 5 миллионов письменных слов. Приводятся проценты встречаемости (%) различных значений и частей речи заглавного слова. К корпусу тщательно применялись различные критерии, помимо частоты и диапазона. Таким образом, несмотря на свой возраст, некоторые ошибки и то, что его корпус представляет собой полностью письменный текст, он по-прежнему представляет собой отличную базу данных о частоте слов, частоте значений и уменьшении шума (Nation 1997). Этот список был обновлен в 2013 году доктором Чарльзом Брауном, доктором Брентом Каллиганом и Джозефом Филлипсом в качестве Нового списка общих услуг .

Частотный справочник слов американского наследия (Кэрролл, Дэвис и Ричман, 1971)

Корпус из 5 миллионов бегущих слов из письменных текстов, используемых в школах США (разные классы, различные предметные области). Его ценность заключается в том, что он сосредоточен на школьных учебных материалах и размечает слова по частоте каждого слова в каждом классе школы и в каждой предметной области (Nation 1997).

The Brown (Фрэнсис и Кучера, 1982) LOB и связанные с ним корпуса

Сейчас они содержат 1 миллион слов из письменного корпуса, представляющего разные диалекты английского языка. Эти источники используются для составления списков частот (Nation 1997).

Французский

Традиционные наборы данных

Обзор был сделан New & Pallier. Попытка была предпринята в 1950–60-х годах с Français Fundamental. Он включает список FF1 с 1500 высокочастотными словами, дополненный более поздним списком FF2 с 1700 среднечастотными словами, а также наиболее часто используемые правила синтаксиса. [11] Утверждается, что 70 грамматических слов составляют 50% коммуникативного предложения, [12] [13] , а 3680 слов составляют около 95–98% охвата. [14] Доступен список из 3000 часто встречающихся слов. [15]

Министерство образования Франции также предоставило ранжированный список из 1500 наиболее часто встречающихся семейств слов , предоставленный лексикологом Этьеном Брюне. [16] Жан Бодо провел исследование по модели американского исследования Брауна под названием «Частоты использования слов в современном французском языке». [17]

Совсем недавно проект Lexique3 предоставил 142 000 французских слов с орфографией , фонетикой , слогом, частью речи , полом , количеством вхождений в исходном корпусе, частотным рангом, связанными лексемами и т. д., доступными по открытой лицензии CC-by- са-4.0 . [18]

Субтлекс

Этот Lexique3 представляет собой непрерывное исследование, из которого зародилось упомянутое выше движение Subtlex. Нью и др. В 2007 году были произведены совершенно новые подсчеты, основанные на субтитрах онлайн-фильмов.

испанский

Было проведено несколько исследований частоты испанских слов (Cuetos et al., 2011). [19]

Китайский

Китайские корпуса уже давно изучаются с точки зрения частотных списков. Исторический способ изучения китайской лексики основан на частоте иероглифов (Allanic 2003). Американский китаевед Джон ДеФрэнсис упомянул о его важности для изучения и преподавания китайского языка в книге « Почему Джонни не может читать по-китайски» (DeFrancis 1966). В качестве инструментария по частоте Да (Da 1998) и Министерство образования Тайваня (TME 1997) предоставили большие базы данных с частотными рангами символов и слов. Список HSK , содержащий 8848 высоко- и среднечастотных слов в Китайской Народной Республике , и ТОП- список Китайской Республики (Тайвань), содержащий около 8600 распространенных традиционных китайских слов, — это два других списка, отображающих распространенные китайские слова и иероглифы. Следуя за движением SUBTLEX, Cai & Brysbaert 2010 недавно провели обширное исследование частоты китайских слов и символов.

Другой

Наиболее часто используемые слова на разных языках на основе Википедии или объединенных корпусов. [20]

Смотрите также

Примечания

  1. ^ «Crr »Частота слов субтитров» .
  2. ^ Боада, Роджер; Гуаш, Марк; Аро, Хуан; Деместре, Хосеп; Ферре, Пилар (1 февраля 2020 г.). «SUBTLEX-CAT: Частота слов в субтитрах и контекстное разнообразие каталонского языка». Методы исследования поведения . 52 (1): 360–375. дои : 10.3758/s13428-019-01233-1 . ISSN  1554-3528. PMID  30895456. S2CID  84843788.
  3. ^ Амента, Симона; Мандера, Павел; Кеулерс, Эммануэль; Брисберт, Марк; Крепальди, Давиде (7 января 2022 г.). «СУБТЛЕКС-ИТ».
  4. ^ Бонтрагер, Терри (1 апреля 1991 г.). «Разработка списков частот слов до списка Торндайка-Лорге 1944 года». Чтение психологии . 12 (2): 91–116. дои : 10.1080/0270271910120201. ISSN  0270-2711.
  5. ^ "APA PsycNet". psycnet.apa.org . Проверено 15 мая 2023 г.
  6. ^ «Слова и фразы: частота, жанры, словосочетания, соответствия, синонимы и WordNet».
  7. ^ «Корпус современного американского английского языка (COCA)» .
  8. ^ «Это ссылки, дурак». Экономист. 20 апреля 2006 года . Проверено 5 июня 2008 г.
  9. ^ Мерхольц, Питер (1999). «Петерме.com». Интернет-архив . Архивировано из оригинала 13 октября 1999 г. Проверено 5 июня 2008 г.
  10. Коттке, Джейсон (26 августа 2003 г.). «коттке.орг» . Проверено 5 июня 2008 г.
  11. ^ "Фундаментальный французский язык" . Архивировано из оригинала 4 июля 2010 г.
  12. ^ Узулиас, Андре (2004), Comprendre et aider les enfants en трудных школьников: Le Vocabulaire Fondamental, 70 основных слов (PDF) , Retz- Цитируя VAC Henmon (неработающая ссылка, нет копии в Интернет-архиве, 10 августа 2023 г.)
  13. ^ Список последних "70 основных моментов" VAC Henmon
  14. ^ «Общие сведения».
  15. ^ "PDF 3000 французских слов" .
  16. ^ "Maitrise de la langue à l'école: Vocabulaire" . Министр национального образования.
  17. ^ Бодо, Ж. (1992), Частоты использования слов во французском языке écrit contemporain , Presses de L'Université, ISBN 978-2-7606-1563-2
  18. ^ "Лексик".
  19. ^ «Списки частотности испанских слов» . Vocabularywiki.pbworks.com .
  20. ^ Наиболее часто используемые слова на разных языках, эзглот.

Рекомендации

Теоретические концепции

Базы данных на основе письменных текстов

СУБТЛЕКС движение