stringtranslate.com

Список слов

Список слов (или лексикон ) — это список лексики языка (обычно отсортированный по частоте появления либо по уровням, либо в виде ранжированного списка) в пределах некоторого заданного корпуса текстов , служащий для приобретения словарного запаса . Лексикон, отсортированный по частоте, «дает рациональную основу для того, чтобы учащиеся получали наилучшую отдачу от своих усилий по изучению словарного запаса» (Nation 1997), но в основном предназначен для авторов курсов, а не непосредственно для учащихся. Списки частот также создаются для лексикографических целей, выступая в качестве своего рода контрольного списка, чтобы гарантировать, что общие слова не пропущены. Некоторые основные подводные камни — это содержание корпуса, регистр корпуса и определение « слова ». В то время как подсчету слов уже тысяча лет, и гигантский анализ все еще выполнялся вручную в середине 20-го века, электронная обработка больших корпусов на естественном языке, таких как субтитры к фильмам (мегаисследование SUBTLEX), ускорила область исследований.

В компьютерной лингвистике список частот представляет собой отсортированный список слов (типов слов) вместе с их частотой , где частота здесь обычно означает количество появлений в данном корпусе , из которого можно вывести ранг как позицию в списке.

Методология

Факторы

Нейшн (Nation 1997) отметил невероятную помощь, которую оказывают вычислительные возможности, значительно упрощающие корпусный анализ. Он привел несколько ключевых вопросов, которые влияют на построение частотных списков:

Корпора

Традиционный письменный корпус

Частота личных местоимений в сербскохорватском языке

Большинство доступных в настоящее время исследований основаны на корпусе письменных текстов , которые более доступны и просты в обработке.

Движение СУБТЛЕКС

Однако Нью и др. 2007 предложили использовать большое количество субтитров, доступных онлайн, для анализа большого количества речей. Брисберт и Нью 2009 провели длительную критическую оценку этого традиционного подхода к текстовому анализу и поддержали переход к анализу речи и анализу субтитров фильмов, доступных онлайн. За этим недавно последовало несколько последующих исследований, [1] предоставивших ценный анализ частоты употребления для различных языков. Действительно, движение SUBTLEX завершило за пять лет полные исследования для французского (New et al. 2007), американского английского (Brysbaert & New 2009; Brysbaert, New & Keuleers 2012), голландского (Keuleers & New 2010), китайского (Cai & Brysbaert 2010), испанского (Cuetos et al. 2011), греческого (Dimitropoulou et al. 2010), вьетнамского (Pham, Bolger & Baayen 2011), бразильского португальского (Tang 2012) и португальского португальского (Soares et al. 2015), албанского (Avdyli & Cuetos 2013), польского (Mandera et al. 2014) и каталонского (2019 [2] ). SUBTLEX-IT (2015) предоставляет только необработанные данные. [3]

Лексическая единица

В любом случае следует определить базовую единицу «слово». Для латинских алфавитов слова обычно представляют собой один или несколько символов, разделенных пробелами или знаками препинания. Но могут возникнуть исключения, такие как английское «can't», французское «aujourd'hui» или идиомы. Также может быть предпочтительнее сгруппировать слова семейства слов под представлением его базового слова . Таким образом, possible, impossible, opportunities являются словами одного и того же семейства слов, представленного базовым словом *possib* . Для статистических целей все эти слова суммируются под базовой формой слова *possib*, что позволяет ранжировать возникновение концепции и формы. Более того, другие языки могут представлять определенные трудности. Так обстоит дело с китайским языком, в котором не используются пробелы между словами, и где указанная цепочка из нескольких символов может быть интерпретирована либо как фраза из слов с уникальными символами, либо как многосимвольное слово.

Статистика

Похоже, что закон Ципфа справедлив для списков частот, составленных из более длинных текстов любого естественного языка. Списки частот являются полезным инструментом при создании электронного словаря, что является предпосылкой для широкого спектра приложений в компьютерной лингвистике .

Немецкие лингвисты определяют Häufigkeitsklasse (частотный класс) элемента в списке, используя логарифм по основанию 2 отношения между его частотой и частотой наиболее частого элемента. Наиболее распространенный элемент принадлежит к частотному классу 0 (ноль), а любой элемент, который встречается примерно в два раза реже, принадлежит к классу 1. В приведенном выше примере списка неправильно написанное слово outragious имеет отношение 76/3789654 и принадлежит к классу 16.

где - функция пола .

Частотные списки вместе с семантическими сетями используются для выявления наименее распространенных специализированных терминов, которые следует заменить их гипернимами в процессе семантической компрессии .

Педагогика

Эти списки не предназначены для прямой передачи студентам, а скорее служат руководством для учителей и авторов учебников (Nation 1997). Краткое изложение современного преподавания языка Пола Нейшена призывает сначала «перейти от высокочастотной лексики и специальной [тематической] лексики к низкочастотной лексике, а затем научить учащихся стратегиям поддержания автономного расширения словарного запаса» (Nation 2006).

Эффекты частоты слов

Известно, что частота слов имеет различные эффекты (Brysbaert et al. 2011; Rudell 1993). На запоминание положительно влияет более высокая частота слов, вероятно, потому, что обучающийся подвергается большему воздействию (Laufer 1997). На лексический доступ положительно влияет высокая частота слов, явление, называемое эффектом частоты слов (Segui et al.). Эффект частоты слов связан с эффектом возраста приобретения , то есть возраста, в котором слово было изучено.

Языки

Ниже представлен обзор доступных ресурсов.

Английский

Подсчет слов — это древняя область [4] , известная своими дискуссиями со времен эллинизма . В 1944 году Эдвард Торндайк , Ирвин Лордж и коллеги [5] вручную подсчитали 18 000 000 бегущих слов, чтобы составить первый крупномасштабный список частотности английского языка, прежде чем современные компьютеры значительно упростили такие проекты (Nation 1997). Все работы 20-го века страдают от своего возраста. В частности, слова, относящиеся к технологиям, такие как «блог», который в 2014 году занимал 7665-е место по частоте [6] в Корпусе современного американского английского языка [7] , впервые были засвидетельствованы в 1999 году [8] [9] [10] и не фигурируют ни в одном из этих трех списков.

Словарь учителя из 30 000 слов (Торндайк и Лордж, 1944)

Teacher Word Book содержит 30 000 лемм или ~13 000 семейств слов (Goulden, Nation and Read, 1990). Корпус из 18 миллионов написанных слов был проанализирован вручную. Размер исходного корпуса увеличил его полезность, но его возраст и изменения языка снизили его применимость (Nation 1997).

Список генеральных служащих (Запад, 1953)

Список общих служебных слов содержит 2000 заглавных слов, разделенных на два набора по 1000 слов. Корпус из 5 миллионов письменных слов был проанализирован в 1940-х годах. Приведена частота встречаемости (%) для различных значений и частей речи заглавного слова. К корпусу были тщательно применены различные критерии, помимо частоты и диапазона. Таким образом, несмотря на его возраст, некоторые ошибки и то, что его корпус представляет собой полностью письменный текст, он по-прежнему является превосходной базой данных частоты слов, частоты значений и снижения шума (Nation 1997). Этот список был обновлен в 2013 году доктором Чарльзом Брауном, доктором Брентом Каллиганом и Джозефом Филлипсом как Новый список общих служебных слов .

Частотный справочник слов «Американское наследие» (Кэрролл, Дэвис и Ричман, 1971)

Корпус из 5 миллионов бегущих слов из письменных текстов, используемых в школах США (различные классы, различные предметные области). Его ценность заключается в его фокусе на школьных учебных материалах и его разметке слов по частоте каждого слова, в каждом школьном классе и в каждой предметной области (Nation 1997).

Brown (Francis and Kucera, 1982) LOB и связанные с ним корпуса

Теперь они содержат 1 миллион слов из письменного корпуса, представляющего различные диалекты английского языка. Эти источники используются для создания списков частот (Nation 1997).

Французский

Традиционные наборы данных

Обзор был сделан New & Pallier. Попытка была сделана в 1950-60-х годах с Français Fundamental. Он включает список FF1 с 1500 высокочастотными словами, дополненный более поздним списком FF2 с 1700 среднечастотными словами и наиболее используемыми правилами синтаксиса. [11] Утверждается, что 70 грамматических слов составляют 50% коммуникативного предложения, [12] [13] в то время как 3680 слов составляют около 95~98% покрытия. [14] Доступен список из 3000 часто встречающихся слов. [15]

Министерство образования Франции также предоставило ранжированный список из 1500 наиболее часто встречающихся семейств слов , составленный лексикологом Этьеном Брюне. [16] Жан Бодо провел исследование по образцу американского исследования Брауна под названием «Частота использования современных французских слов». [17]

Совсем недавно проект Lexique3 предоставил 142 000 французских слов с орфографией , фонетикой , слоговым делением, частью речи , родом , количеством употреблений в исходном корпусе, рангом частотности, связанными лексемами и т. д., доступных по открытой лицензии CC-by-sa-4.0 . [18]

Субтлекс

Этот Lexique3 является непрерывным исследованием, из которого возникло движение Subtlex, упомянутое выше. New et al. 2007 сделал совершенно новый подсчет на основе онлайн-субтитров фильмов.

испанский

Было проведено несколько исследований частоты употребления испанских слов (Cuetos et al. 2011). [19]

китайский

Китайские корпусы давно изучаются с точки зрения списков частот. Исторический способ изучения китайского словарного запаса основан на частоте иероглифов (Allanic 2003). Американский синолог Джон ДеФрэнсис упомянул его важность для изучения и преподавания китайского языка как иностранного в книге Почему Джонни не может читать по-китайски (DeFrancis 1966). В качестве инструментария по частоте Да (Da 1998) и Министерство образования Тайваня (TME 1997) предоставили большие базы данных с рангами частот для иероглифов и слов. Список HSK из 8848 высоко- и среднечастотных слов в Китайской Народной Республике и список TOP Китайской Республики (Тайвань) из примерно 8600 распространенных традиционных китайских слов — это два других списка, отображающих распространенные китайские слова и иероглифы. Следуя движению SUBTLEX, Cai & Brysbaert 2010 недавно провели обширное исследование частот китайских слов и иероглифов.

Другой

Викисловарь:Списки частот содержит списки частот на большем количестве языков. [20]

Наиболее часто используемые слова на разных языках по данным Википедии или объединенных корпусов. [21]

Смотрите также

Примечания

  1. ^ "Crr » Частоты слов в субтитрах".
  2. ^ Боада, Роджер; Гуаш, Марк; Аро, Хуан; Деместре, Хосеп; Ферре, Пилар (1 февраля 2020 г.). «SUBTLEX-CAT: Частоты слов в субтитрах и контекстное разнообразие для каталонского языка». Методы исследования поведения . 52 (1): 360–375. doi : 10.3758/s13428-019-01233-1 . ISSN  1554-3528. PMID  30895456. S2CID  84843788.
  3. ^ Амента, Симона; Мандера, Павел; Кёулерс, Эммануэль; Брисберт, Марк; Крепальди, Давиде (7 января 2022 г.). «SUBTLEX-IT».
  4. ^ Бонтрагер, Терри (1 апреля 1991 г.). «Развитие списков частотности слов до списка Торндайка-Лорге 1944 г.». Психология чтения . 12 (2): 91–116. doi :10.1080/0270271910120201. ISSN  0270-2711.
  5. ^ "APA PsycNet". psycnet.apa.org . Проверено 15 мая 2023 г.
  6. ^ «Слова и фразы: частота, жанры, сочетания, соответствия, синонимы и WordNet».
  7. ^ «Корпус современного американского английского языка (COCA)».
  8. ^ "Это ссылки, глупый". The Economist. 20 апреля 2006 г. Получено 05.06.2008 г.
  9. ^ Merholz, Peter (1999). "Peterme.com". Архив Интернета . Архивировано из оригинала 13 октября 1999 г. Получено 05 июня 2008 г.
  10. Коттке, Джейсон (26 августа 2003 г.). "kottke.org" . Получено 05.06.2008 .
  11. ^ "Фундаментальный французский язык" . Архивировано из оригинала 4 июля 2010 г.
  12. ^ Узулиас, Андре (2004), Comprendre et aider les enfants en Трудные школьники: Le Vocabulaire Fondamental, 70 основных слов (PDF) , Retz- Ссылаясь на VAC Henmon (ссылка не работает, копия в интернет-архиве отсутствует, 10 августа 2023 г.)
  13. ^ Список последних "70 основных моментов" VAC Henmon
  14. ^ «Общие сведения».
  15. ^ "PDF 3000 французских слов".
  16. ^ "Maitrise de la langue à l'école: Vocabulaire" . Министр национального образования.
  17. ^ Бодо, Ж. (1992), Частоты использования слов во французском языке écrit contemporain , Presses de L'Université, ISBN 978-2-7606-1563-2
  18. ^ "Лексика".
  19. ^ "Списки частотности испанских слов". Vocabularywiki.pbworks.com .
  20. Викисловарь:Списки частот, 21 июля 2024 г.
  21. ^ Наиболее часто используемые слова в разных языках, ezglot

Ссылки

Теоретические концепции

Базы данных на основе письменных текстов

Движение СУБТЛЕКС