В морфологии и лексикографии лемма ( мн. ч .: леммы или лемматы ) — это каноническая форма , [1] словарная форма или форма цитаты набора словоформ . [2] В английском языке, например, break , breaks , broke , broken и breaking являются формами одной и той же лексемы , причем break — это лемма, по которой они индексируются. Лексема в этом контексте относится к набору всех склоняемых или чередующихся форм в парадигме одного слова, а лемма относится к конкретной форме, которая выбрана по соглашению для представления лексемы. Леммы имеют особое значение в сильно склоняемых языках, таких как арабский , турецкий и русский . Процесс определения леммы для данной лексемы называется лемматизацией . Лемму можно рассматривать как главную из главных частей , хотя лемматизация, по крайней мере, частично произвольна.
Форма слова, которая выбирается в качестве леммы, обычно является наименее выраженной формой, но есть несколько исключений, таких как использование инфинитива для глаголов в некоторых языках.
Для английского языка формой цитирования существительного является форма единственного числа (и непритяжательная): mouse вместо mouses . Для многословных лексем, содержащих притяжательные прилагательные или возвратные местоимения , форма цитирования использует форму неопределенного местоимения one : do one's best , perjure oneself . В европейских языках с грамматическим родом формой цитирования правильных прилагательных и существительных обычно является мужской род единственного числа. [ необходима цитата ] Если в языке также есть падежи , формой цитирования часто является мужской род единственного числа именительного падежа.
Во многих языках формой цитирования глагола является инфинитив : французский aller , немецкий gehen , хиндустани जाना / جانا , испанский ir . Английские глаголы обычно имеют инфинитив, который в своей чистой форме (без частицы to ) является его наименее маркированным (например, break выбирается вместо to break , breaks , broke , breaking и broken ); для дефектных глаголов без инфинитива используется настоящее время (например, must имеет только одну форму, в то время как shall не имеет инфинитива, и обе леммы являются формами настоящего времени своих лексем). В латинском , древнегреческом , новогреческом и болгарском языках традиционно используется первое лицо единственного числа настоящего времени , но некоторые современные словари вместо этого используют инфинитив (за исключением болгарского, в котором инфинитив отсутствует; для сокращенных глаголов в древнегреческом языке для выявления сокращенной гласной используется несокращенное первое лицо единственного числа настоящего времени: φιλέω philéō для φιλῶ philō «Я люблю» [подразумевая привязанность], ἀγαπάω agapáō для ἀγαπῶ agapō «Я люблю» [подразумевая уважение]). Финские словари перечисляют глаголы не под их корнем, а под первым инфинитивом, помеченным -(t)a , -(t)ä .
Для японского языка используется непрошедшее (настоящее и будущее) время. Для арабского языка наименее отмеченной формой является третье лицо единственного числа мужского рода прошедшего/совершенного времени. В старых словарях, которые все еще широко используются, используется трехбуквенная форма слова , либо глагол, либо существительное. Это похоже на иврит , где также используется третье лицо единственного числа мужского рода совершенного вида, например, ברא bara' create, כפר kaphar deny. В грузинском языке используется отглагольное существительное . Для корейского языка -da присоединяется к основе.
В тамильском языке , агглютинативном языке , часто цитируется основа глагола (которая также является повелительной формой — наименее выраженной), например, இரு
В ирландском языке слова сильно изменяются в зависимости от падежа (родительный, именительный, дательный и звательный падеж) и от их места в предложении из-за первоначальных мутаций . Существительное cainteoir , лемма для существительного, означающего «говорящий», имеет множество форм: Chainteoir , gcainteoir , cainteora , Chainteora , cainteoirí , Chainteoirí и gcainteoirí .
Некоторые фразы цитируются в виде своего рода леммы: Carthago delenda est (буквально «Карфаген должен быть разрушен») — это распространенный способ цитирования Катона , но то, что он сказал, было ближе к censeo Carthaginem esse delendam («Я считаю, что Карфаген нуждается в разрушении»).
В словаре лемма "go" представляет собой склоняемые формы "go", "goes", "going", "went" и "gone". Связь между склоняемой формой и ее леммой обычно обозначается угловой скобкой, например, "went" < "go". Конечно, недостатком таких упрощений является невозможность поиска склоняемой или спрягаемой формы слова, но некоторые словари, например, Webster's Dictionary , содержат "went". Многоязычные словари по-разному решают эту проблему: в словаре немецкого языка Langenscheidt нет ging (< gehen ), а в словаре Cassell есть.
Леммы или основы слов часто используются в корпусной лингвистике для определения частоты слов. В этом использовании конкретное определение «леммы» является гибким в зависимости от задачи, для которой она используется.
Слово может иметь разные произношения в зависимости от его фонетического окружения (соседних звуков) или от степени ударения в предложении. Примером последнего являются слабые и сильные формы некоторых служебных слов английского языка, таких как some и but (произносится /sʌm/ , /bʌt/ под ударением, но /s(ə)m/ , /bət/ без ударения). Словари обычно приводят произношение, используемое, когда слово произносится отдельно (его изолированная форма ) и с ударением, но они также могут отмечать распространенные слабые формы произношения.
Основа — это часть слова, которая никогда не изменяется даже при морфологическом спряжении; лемма — это наименее выраженная форма слова. В лингвистическом анализе основа определяется более широко как форма без каких-либо возможных флективных морфем (но включая деривационные морфемы и может содержать несколько корней). [3] Если принять во внимание фонологию , определение неизменяемой части слова бесполезно, как можно увидеть в фонологических формах слов в предыдущем примере: "produced" / p r ə ˈ dj uː s t / против "production" / p r ə ˈ d ʌ k ʃ ən / .
Некоторые лексемы имеют несколько основ, но одну лемму. Например, глагол "to go" имеет основы "go" и "went" из-за супплеции : прошедшее время было заимствовано из другого глагола, "to wend".
Заглавное слово или кнопочное слово [4] — это лемма , под которой появляется набор связанных словарных или энциклопедических записей. Заглавное слово используется для определения местонахождения записи и определяет ее алфавитное положение. В зависимости от размера и характера словаря или энциклопедии запись может включать альтернативные значения слова, его этимологию , произношение и склонения , связанные леммы, такие как сложные слова или фразы, содержащие заглавное слово, и энциклопедическую информацию о концепциях, представленных словом.
Например, заглавное слово хлеб может содержать следующие (упрощенные) определения:
Академический словарь литовского языка содержит около 500 000 заглавных слов. Оксфордский словарь английского языка (OED) содержит около 273 000 заглавных слов вместе с 220 000 других лемм, [5] в то время как Третий новый международный словарь Вебстера содержит около 470 000. [6] Deutsches Wörterbuch (DWB), крупнейший словарь немецкого языка , содержит около 330 000 заглавных слов. [7] Эти значения цитируются составителями словарей и могут не использовать точно такое же определение заглавного слова. Кроме того, заглавные слова могут неточно отражать физический размер словаря. Например , OED и DWB включают исчерпывающие исторические обзоры и точные цитаты из исходных документов, которые обычно не встречаются в стандартных словарях.
Термин «лемма» происходит от практики использования этого слова в греко-римской древности для обозначения заглавных слов в комментариях на полях схолий ; по этой причине иногда используется древнегреческая форма множественного числа, а именно леммата (греч. λῆμμα, мн. ч. λήμματα).
проблема может возникнуть при выборе канонической формы заглавного слова, т. е. формы, в которой оно будет цитироваться.