stringtranslate.com

Лемма (морфология)

В морфологии и лексикографии лемма ( мн.ч.: леммы или лемматы ) — это каноническая форма , [1] словарная форма или форма цитирования набора словоформ . [2] В английском языке , например, Break , Breaks , Break , Breaking и Breaking — это формы одной и той же лексемы , где Break является леммой, по которой они индексируются. Лексема в этом контексте относится к набору всех изменяемых или чередующихся форм в парадигме одного слова, а лемма относится к конкретной форме, которая выбрана по соглашению для представления лексемы. Леммы имеют особое значение в сильно изменяемых языках, таких как арабский , турецкий и русский . Процесс определения леммы для данной лексемы называется лемматизацией . Лемму можно рассматривать как главную из главных частей , хотя лемматизация по крайней мере отчасти произвольна.

Морфология

Форма слова, выбранная в качестве леммы, обычно является наименее выраженной формой, но есть несколько исключений, таких как использование инфинитива для глаголов в некоторых языках.

В английском языке формой цитирования существительного является форма единственного числа (и непритяжательное): mouse , а не mouses . Для многословных лексем, содержащих притяжательные прилагательные или возвратные местоимения , в форме цитирования используется форма неопределенного местоимения one : сделать все возможное , лжесвидетельствовать . В европейских языках с грамматическим родом форма цитирования правильных прилагательных и существительных обычно мужского рода единственного числа. [ нужна цитата ] Если в языке также есть падежи , то формой цитирования часто является именительный падеж единственного числа мужского рода.

Для многих языков формой цитирования глагола является инфинитив : французский aller , немецкий gehen , хиндустани जाना / جانا , испанский ir . Английские глаголы обычно имеют инфинитив, который в своей простой форме (без частицы to ) является наименее выраженным (например, Break выбирается вместо Break , Breaks , Break , Breaking и Breaked ); для дефектных глаголов , не имеющих инфинитива, используется настоящее время (например, must имеет только одну форму, а will не имеет инфинитива, и обе леммы являются формами настоящего времени их лексем). В латинском , древнегреческом , новогреческом и болгарском языках традиционно используется настоящее время от первого лица единственного числа , но в некоторых современных словарях вместо этого используется инфинитив (за исключением болгарского языка, в котором отсутствуют инфинитивы; для сокращенных глаголов в древнегреческом языке используется несжатое первое лицо). настоящее время единственного числа используется для раскрытия контрактной гласной: φιλέω philéō вместо φιλῶ philō «Я люблю» [подразумевает привязанность], ἀγαπάω agapáō вместо ἀγαπῶ agapō «Я люблю» [подразумевает уважение]). В финских словарях глаголы перечисляются не под корнем, а под первым инфинитивом, отмеченным -(t)a , -(t)ä .

В японском языке используется непрошедшее (настоящее и будущее) время. В арабском языке мужская форма третьего лица единственного числа прошедшего/совершенного времени является наименее выраженной формой и используется для записей в современных словарях. В старых словарях, которые до сих пор широко используются, используется трехбуквенный вариант слова: глагол или существительное. Это похоже на иврит , в котором также используется совершенная форма третьего лица единственного числа мужского рода, например ברא bara' create, כפר kaphar отрицать. Грузинский язык использует отглагольное существительное . В корейском языке к основе присоединяется -da .

В тамильском языке , агглютинативном языке , часто цитируется основа глагола (которая также является повелительной формой - наименее выраженной), например, இரு

В ирландском языке слова сильно изменяются в зависимости от падежа (родительный, именительный, дательный и звательный падеж) и от их места в предложении из-за первоначальных мутаций . Существительное cainteoir , лемма для существительного, означающего «говорящий», имеет множество форм: Chainteoir , gcainteoir , cainteora , Chainteora , cainteoirí , Chainteoirí и gcainteoirí .

Некоторые фразы цитируются в виде своего рода леммы: Carthago delenda est (буквально: «Карфаген должен быть разрушен») — распространенный способ цитировать Катона , но то, что он сказал, было ближе к censeo Carthaginem esse delendam («Я считаю, что Карфаген находится в необходимость разрушения»).

Лексикография

В словаре лемма «идти» представляет собой изменяемые формы «идти», «идет», «идет», «пошел» и «ушел». Связь между изменяемой формой и ее леммой обычно обозначается угловой скобкой, например, «пошел» < «идти». Конечно, недостатком таких упрощений является невозможность найти склоняемую или спряженную форму слова, но в некоторых словарях, например в словаре Вебстера , список «пошел». Многоязычные словари по-разному решают эту проблему: в словаре немецкого языка Langenscheidt не упоминается ging (< gehen ), а в словаре Cassell он есть.

Леммы или основы слов часто используются в корпусной лингвистике для определения частоты слов. В этом случае конкретное определение «леммы» является гибким в зависимости от задачи, для которой оно используется.

Произношение

Слово может иметь различное произношение в зависимости от его фонетического окружения (соседних звуков) или от степени ударения в предложении. Примером последнего являются слабые и сильные формы некоторых служебных слов английского языка, таких как some и But (произносится /sʌm/ , /bʌt/ при ударении, но /s(ə)m/ , /bət/ при отсутствии ударения). В словарях обычно приводится произношение, употребляемое при произношении слова отдельно (его обособленная форма ) и с ударением, но могут отмечаться и распространенные слабые формы произношения.

Разница между основой и леммой

Основа — это часть слова, которая никогда не меняется даже при морфологическом изменении ; лемма — наименее выраженная форма слова. Например, в слове «произведено» лемма — «производить», но основа — «производить-». Это потому, что есть такие слова, как производство . и создание [3] [ не удалось проверить ] В лингвистическом анализе основа определяется в более общем смысле как анализируемая базовая форма, из которой могут быть сформированы все изменяемые формы. [ нужна цитата ] Когда принимается во внимание фонология , определение неизменяемой части слова бесполезно, как можно видеть в фонологических формах слов в предыдущем примере: «произведенный» / p r ə ˈ dj с т / против «производства» / п р ə ˈ d ʌ k ʃ ən / .

Некоторые лексемы имеют несколько основ, но одну лемму. Например, глагол «идти» имеет основы «идти» и «шел» из-за дополнения : прошедшее время было заимствовано из другого глагола «ехать».

Заглавное слово

Заглавное слово , лемма или ключевое слово [4] — это слово , под которым появляется набор связанных статей словаря или энциклопедии . Заголовок используется для поиска записи и определяет ее положение в алфавите. В зависимости от размера и характера словаря или энциклопедии статья может включать альтернативные значения слова, его этимологию , произношение и флексию , сложные слова или словосочетания, содержащие заглавное слово, а также энциклопедическую информацию о понятиях, представленных этим словом.

Например, заглавное слово хлеб может содержать следующие (упрощенные) определения:

Хлеб
(существительное)
  • Обычная еда, приготовленная из смеси муки , воды и дрожжей .
  • Деньги (сленг)
(глагол)
  • Обвалять в сухарях
знать, с какой стороны твой хлеб намазан маслом, чтобы знать, как действовать в своих интересах.

Академический словарь литовского языка содержит около 500 000 главных слов. Оксфордский словарь английского языка (OED) насчитывает около 273 000 главных слов и 220 000 лемм [5] , а Третий новый международный словарь Вебстера — около 470 000. [6] Deutsches Wörterbuch (DWB), крупнейший словарь немецкого языка , насчитывает около 330 000 ключевых слов. [7] Эти значения указаны составителями словарей и могут не совпадать с определением главного слова. Кроме того, заголовки могут неточно отражать физический размер словаря. Например, OED и DWB включают исчерпывающие исторические обзоры и точные цитаты из исходных документов , которые обычно не встречаются в стандартных словарях.

Термин «лемма» происходит от практики использования этого слова в греко-римской древности для обозначения заголовков маргинальных глосс в схолиях ; по этой причине иногда используется древнегреческая форма множественного числа, а именно лемматы (греч. λῆμμα, мн. λήμματα).

Смотрите также

Рекомендации

  1. ^ Згуста, Ладислав (2006). Долезал, Фредрик Ф.М. (ред.). Лексикография тогда и сейчас . п. 202. ИСБН 3484391294. Незначительная... проблема может возникнуть, когда необходимо выбрать каноническую форму главного слова, то есть форму, в которой оно будет цитироваться.
  2. ^ Фрэнсис, WN; Кучера, Х (1982). Частотный анализ употребления английского языка: лексика и использование . Бостон: Хоутон Миффлин.
  3. ^ «Набор инструментов естественного языка — документация NLTK 3.0» . Nltk.org. 05.09.2015 . Проверено 27 сентября 2015 г.
  4. ^ Оксфордский словарь английского языка , 3-е место. издание, 2018, св, определение 5
  5. ^ «Глоссарий - Оксфордский словарь английского языка» . public.oed.com . Проверено 3 октября 2016 г.
  6. ^ "Мвунасокращенный". www.merriam-webster.com . Проверено 3 октября 2016 г.
  7. ^ Deutsches Wörterbuch. Архивировано 12 августа 2016 г. в Wayback Machine в BBAW, получено 22 июня 2012 г.

Внешние ссылки