Слово, которое встречается только один раз в данном тексте или записи
График частотности рангов слов в романе «Моби Дик» . Около 44% отдельного набора слов в этом романе, например «брачный», встречаются только один раз, как и hapax legomena (красный). Около 17%, например «ловкость», появляются дважды (так называемые дис легомены , выделены синим цветом). Закон Ципфа предсказывает, что слова на этом графике должны приближаться к прямой линии с наклоном -1.
В корпусной лингвистике легомен hapax ( / ˈ h æ p ə k s l ɪ ˈ ɡ ɒ m ɪ n ɒ n / также / ˈ h æ p æ k s / или / ˈ h eɪ p æ k s / ; [1 ] [2] мн. hapax legomena ; иногда сокращается до hapax , множественное число hapaxes ) — слово или выражение , которое встречается только один раз в контексте: либо в письменных источниках целого языка , в произведениях автора, либо в один текст. Этот термин иногда неправильно используется для описания слова, которое встречается только в одном из произведений автора, но более одного раза в этом конкретном произведении. Hapax legomenon — это транслитерация греческого ἅπαξ λεγόμενον , что означает «сказанное один раз» . [3]
Соответствующие термины dis legomenon , tris legomenon и тетракис legomenon соответственно ( / ˈ d ɪ s / , / ˈ t r ɪ s / , / ˈ t ɛ t r ə k ɪ s / ) относятся к двойным, тройным или четверным вхождениям. , но используются гораздо реже.
Hapax legomena довольно распространены, как и предсказывает закон Ципфа [4] , который гласит, что частота любого слова в корпусе обратно пропорциональна его рангу в таблице частот. В больших корпусах от 40% до 60% слов составляют hapax legomena , а еще от 10% до 15% — dis legomena . [5] Таким образом, в Коричневом корпусе американского английского языка около половины из 50 000 отдельных слов являются hapax legomena внутри этого корпуса. [6]
Hapax legomenon относится к появлению слова или выражения в тексте, а не к его происхождению или распространенности в речи. Таким образом, оно отличается от одноразового слова , которое может никогда не быть записано, может найти распространение и может широко записываться или может появляться несколько раз в произведении, в котором оно создано , и так далее.
Значение
Hapax legomena в древних текстах обычно трудно расшифровать, поскольку легче вывести значение из нескольких контекстов, чем из одного. Например, многие из оставшихся нерасшифрованных символов майя представляют собой hapax legomena , а библейские (особенно ивритские ; см. § Иврит) hapax legomena иногда создают проблемы при переводе. Hapax legomena также создает проблемы при обработке естественного языка . [7]
Некоторые ученые считают Hapax legomena полезным для определения авторства письменных произведений. П. Н. Харрисон в книге «Проблема пастырских посланий» (1921) [8] сделал hapax legomena популярными среди библеистов , когда утверждал, что в трёх пастырских посланиях их значительно больше, чем в других посланиях Павла . Он утверждал, что количество hapax legomena в корпусе предполагаемого автора указывает на его словарный запас и характеризует автора как личность.
Теория Харрисона потеряла свое значение из-за ряда проблем, поднятых другими учеными. Например, в 1896 году У. П. Уоркман обнаружил в каждом послании Павла следующее количество hapax legomena :
На первый взгляд, последние три суммы (по пастырским посланиям) не отличаются от остальных. [9] Чтобы принять во внимание разную длину посланий, Уоркман также подсчитал среднее количество hapax legomena на странице греческого текста , которое колебалось от 3,6 до 13, как показано на диаграмме справа. [9] Хотя в пастырских посланиях больше hapax legomena на странице, Уоркман обнаружил, что различия умеренные по сравнению с различиями среди других посланий. Это подтвердилось, когда Уоркман просмотрел несколько пьес Шекспира , в которых были обнаружены схожие вариации (от 3,4 до 10,4 на страницу однотомного издания Ирвинга), как показано на второй диаграмме справа. [9]
Помимо личности автора, есть еще несколько факторов, которые могут объяснить количество hapax legomena в произведении: [10]
длина текста: это напрямую влияет на ожидаемое количество и процент гапакс легомен ; Краткость пастырских посланий также делает проблематичным любой статистический анализ.
тема текста: если автор пишет на разные темы, конечно, многие предметно-специфичные слова будут встречаться только в ограниченном контексте.
текстовая аудитория: если автор пишет сверстнику, а не студенту, или его супругу, а не работодателю, снова появится совершенно другой словарный запас.
время: с течением времени изменится как язык, так и знание и использование языка автором.
В конкретном случае пастырских посланий все эти переменные сильно отличаются от переменных в остальной части корпуса Павла, и hapax legomena больше не широко воспринимаются как убедительные индикаторы авторства; те, кто отвергает авторство Павла в Пасторалях, опираются на другие аргументы. [11]
Существуют также субъективные вопросы о том, являются ли две формы «одним и тем же словом»: собака против собак, подсказка против невежественной, знак против подписи; возникают и многие другие серые случаи. Еврейская энциклопедия указывает, что, хотя в еврейской Библии 1500 гапаксов , только около 400 явно не связаны с другими подтвержденными словоформами. [12]
Последняя трудность с использованием hapax legomena для определения авторства заключается в том, что среди произведений, о которых известно, что они написаны одним автором, существуют значительные различия, и разные авторы часто демонстрируют схожие значения. Другими словами, hapax legomena не является надежным индикатором. Исследования авторства теперь обычно используют широкий спектр показателей для поиска закономерностей, а не полагаются на отдельные измерения.
Информатика
В области компьютерной лингвистики и обработки естественного языка (НЛП), особенно. В корпусной лингвистике и НЛП с машинным обучением принято игнорировать hapax legomena (а иногда и другие нечастые слова), поскольку они, скорее всего, не будут иметь особой ценности для вычислительных методов. Такое игнорирование имеет дополнительное преимущество, заключающееся в значительном сокращении использования памяти приложением, поскольку по закону Ципфа многие слова являются hapax legomena. [13]
Примеры
Ниже приведены некоторые примеры hapax legomena в языках или корпусах .
Классическая китайская и японская литература содержит множество китайских иероглифов , которые встречаются в корпусе только один раз, и их значение и произношение часто теряются. Известные на японском языке как кого (孤語) , буквально «одинокие персонажи», их можно считать разновидностью хапакс легоменона . [15] Например, в «Классике поэзии» ( ок. 1000 г. до н.э. ) иероглиф篪используется ровно один раз в стихе 「伯氏吹塤,仲氏吹篪」 , и это произошло только благодаря обнаружению описания Го Пу . (276–324 гг. н. э.), что этот персонаж мог быть связан с определенным типом древней флейты.
Авторы довольно часто «выдумывают» новые слова, чтобы передать определенное значение или ради развлечения, без какого-либо предположения, что это «правильные» слова. Например, П. Г. Вудхауз делает это часто, не говоря уже о Льюисе Кэрролле . Indexy ниже, по-видимому, является примером этого.
Флотер , как синоним снежинки , — hapax legomenon письменного английского языка, найденный в рукописи под названием «XI Боли ада» ( ок. 1275 ). [16] [17]
Гебенон , яд, упомянутый в«Гамлете» Шекспира только один раз .
Индекси в « Дракуле » Брэма Стокера используется в качестве прилагательного для описания ситуационного состояния, не имеющего дальнейшего дальнейшего использования в языке: «Если бы этот человек был обычным сумасшедшим, я бы рискнул довериться ему; но он кажется таким спутался с графом до такой степени, что боюсь сделать что-нибудь плохое, помогая его причудам». [18]
Мантикратия , означающая «правление семьи или клана Пророка», по-видимому, была изобретена Т.Э. Лоуренсом и однажды появляется в «Семи столпах мудрости» . [18]
Слово Nortelrye , означающее «образование», встречается в Чосере только один раз .
Нахальство , возможно, в значении «дерзость», встречается только один раз в рассказе Диккенса «Рождественская елка» .
Slæpwerigne , «утомленный сном», встречается ровно один раз в древнеанглийском корпусе, в Эксетерской книге . Ведутся споры о том, означает ли это «утомленный сном» или «утомленный сном».
По словам ученого-классика Клайда Фарра , «в « Илиаде» 1097 hapax legomena , а в « Одиссее» — 868». [19] Другие, однако, определили этот термин по-другому и насчитали всего 303 в « Илиаде» и 191 в « Одиссее» . [20]
panaōrios ( παναώριος ), древнегреческое слово , означающее «очень несвоевременно», — одно из многих слов, которые встречаются в « Илиаде» только один раз . [21]
Греческий Новый Завет содержит 686 местных гапаксов легомен , которые иногда называют «новозаветными гапаксами». [22] 62 из них встречаются в 1 Петра , а 54 — во 2 Петра . [23]
Слово афедрон (ἀφεδρών) «уборная» в греческом Новом Завете встречается только дважды, в Матфея 15:17 и Марка 7:19, но поскольку широко распространено мнение, что автор Евангелия от Матфея использовал Евангелие от Марка как источника, его можно рассматривать как hapax legomenon . Его ошибочно переводили как «кишечник», пока надпись из Lex de astynomis Pergamenorum («Закон городских клерков Пергама ») не подтвердила, что это означает «уборная». [24] [25]
иврит
Число различных hapax legomena в еврейской Библии составляет 1480 (из 8679 различных использованных слов). [26] : 112 Однако из-за еврейских корней , суффиксов и префиксов только 400 являются «истинными» hapax legomena . [12] Полный список можно увидеть в статье « Hapax Legomena » Еврейской энциклопедии . [12]
Вот некоторые примеры:
Акут (אקוט – сражался) появляется в еврейской Библии только один раз, в Псалме 95:10.
Ацей Суслик (עֲצֵי-גֹפֶר – Дерево суслика ) упоминается один раз в Библии, в Бытие 6:14, в указании сделать Ноев ковчег «из дерева суслика». Из-за его единственного внешнего вида его буквальное значение теряется. Гофер – это просто транслитерация , хотя ученые предполагают, что подразумеваемое дерево – кипарис . [27]
Гвина (גבינה — сыр ) — hapax legomenon библейского иврита , встречающийся только в Иов 10:10. Это слово стало чрезвычайно распространенным в современном иврите .
Зехухит (זכוכית) — это hapax legomenon библейского иврита, встречающийся только в Иов 28:17. Слово происходит от корня זכה z-ch-h , что означает чистый/прозрачный, и относится к стеклу или кристаллу . В современном иврите оно означает «стекло».
Лилит (לילית) встречается один раз в еврейской Библии , в Исаии 34:14, где описывается запустение Эдома . Оно переводится несколькими способами. Следующий стих, Исаия 34:15, содержит еще один hapax legomenon , слово qippoz (קִפוֹז), которое в разных версиях текстапереводится как сова , стрела-змея и песчаная куропатка . [28]
Венгерский
Слово ímés упоминается в книге Иштвана Секели 1559 года под названием Chronica ez vilagnac ieles dolgairol . [29] Согласно теории историка литературы Гезы Сентмартони Сабо, это слово означает «полусонный». [30]
ирландский
chomneibi , прилагательное неизвестного значения, описывающее планку , появляется только в «Триадах Ирландии» № 169. [31]
Глагол attuia появляется один раз в «Комедии» ( Чистилище XXXIII, 48). Значение оспаривается, но обычно интерпретируется как «затемняет» или «препятствует». В некоторых рукописях вместо этого приводится альтернативный вариант hapax accuia . [32]
Ultrafilosofia , что означает «за пределами философии», появляется в « Зибальдоне » Леопарди (Зибальдоне 114–115 – 7 июня 1820 г.).
латинский
Deproeliantis , причастие от слова deproelior , которое означает «яростно сражаться» или «жестоко бороться», появляется только в 11 строке Оды Горация 1.9.
Мактату , аблатив единственного числа от mactatus , что означает «из-за убийства». Оно встречается только в «De rerum natura » Лукреция .
Mnemosynus , предположительно означающий подарок на память или памятную записку , появляется только в стихотворении 12 « Кармины » Катулла .
Scortillum , уменьшительная форма, означающая «маленькая проститутка», встречается только в стихотворении 10 « Кармины » Катулла , строка 3.
Террикрепо , прилагательное, очевидно, относящееся к громовому ораторскому методу, встречается только в восьмой книге « Исповеди » Августина .
Romanitas , существительное, означающее «романизм», «римский образ жизни» или «римский образ жизни», появляется только в « Де Паллионе » Тертуллиана . [33] [34]
Арепо — потенциальное имя собственное, встречающееся только на площади Сатор . Его можно получить, написав оперу наоборот.
Эойгена , прилагательное, относящееся к солнцу и означающее «тот, кто родился на востоке», [35] [36] появляется только в эпиграфе, найденном в Кастелламмаре-ди-Стабия (древние Стабии ).
славянский
Вытол (вытол) — hapax legomenon известного корпуса средневековых русских берестяных рукописей . Это слово встречается в надписи №. 600 из Новгорода , датировано ок. 1220–1240, в контексте « вытол пойман» (вытоло изловили, вытоло изловили ). По словам Андрея Зализняка , это слово больше нигде не встречается, и его значение неизвестно. [37] Предлагались различные интерпретации, например, личного имени или социального статуса человека. [38]
испанский
Атафея — это hapax legomenon , появляющийся в пословице Бласко де Гарай в 16 веке ( «uno muere de atafea y otro la desea» ). Значение этого слова не было известно, и первоначально оно интерпретировалось как сытость. Современные этимологи связывают его с североафриканским арабским термином тафайя/аттатфиха, который означает рагу из лука и кориандра. [39]
Esi , которое, как полагают, происходит от латинского союза etsi «хотя», появляется только один раз в « Virtuosas e claras mugeres » Альваро де Луны (1446). [40]
В популярной культуре
Режиссер-авангардист Холлис Фрэмптон с 1971 по 1972 год снял серию из семи фильмов под названием Hapax Legomena I: Nostalgia to Hapax Legomena VII: Special Effects . [41]
Легоменон Hapax как термин на короткое время стал известен в Великобритании после финала Университетского конкурса 2014–2015 годов , после того как вирусными стали видео, на которых студент Гонвилля и Кая Тед Лавдей быстро назвал его правильным ответом, когда ведущий Джереми Паксман успел только спросить: «Смысл», - сказал только один раз», какой греческий термин, состоящий из двух слов, обозначает слово...». [42] [43] [44] [45]
В видеоигре NetHack « HAPAX LEGOMENON » — один из возможных рандомизированных текстов пока ещё неопознанного типа магического свитка. После прочтения свиток производит свой магический эффект, а затем исчезает («вещь, сказанная однажды»), но, возможно, в дальнейшем становится идентифицируемым (например, свиток зачарования брони, свиток телепортации и т. д.) для этого прохождения. [47]
В веб-комиксе «Нарбоник» побочная история викторианской эпохи представляет группу венерианских рыболюдей, лидера которых зовут Хапакс Легоменон.
Смотрите также
Googlewhack – конкурс на поиск поискового запроса Google, который возвращает один результат.
^ Кирстен Мальмкьер, Лингвистическая энциклопедия, заархивированная 1 января 2020 г. в Wayback Machine , 2-е изд., Routledge, 2002, ISBN 0-415-22210-9 , стр. 87.
^ Кристофер Д. Мэннинг и Хинрих Шютце, Основы статистической обработки естественного языка , MIT Press, 1999, стр. 22, ISBN 0-262-13360-1 .
^ П.Н. Харрисон. Проблема пастырских посланий . Издательство Оксфордского университета, 1921.
^ abc Workman, «Hapax Legomena of St. Paul», Expository Times , 7 (1896:418), отмечено в Католической энциклопедии, св. «Послания к Тимофею и Титу». Архивировано 8 апреля 2011 г. в Wayback Machine .
^ Стивен Дж. ДеРоуз. «Статистический анализ некоторых лингвистических аргументов относительно авторства пастырских посланий». Диссертация с отличием, Университет Брауна, 1982 г.; Терри Л. Уайлдер. «Краткая защита подлинности пастырских посланий». Среднезападный богословский журнал 2.1 (осень 2003 г.), 38–4. (В сети)
^ abc Статья о Hapax Legomena. Архивировано 19 октября 2012 г. в Wayback Machine в Еврейской энциклопедии . Включает список всех ветхозаветных hapax legomena по книгам.
^ Д. Джурафски и Дж. Х. Мартин (2009). Речевая и языковая обработка . Прентис Холл.
^ Орхан Эльмаз. «Die Interpretationsgeschichte der koranischen Hapaxlegomena». Докторская диссертация, Венский университет, 2008 г., стр. 29.
^ Керр, Алекс (3 сентября 2015 г.). Потерянная Япония. Пингвин Великобритания. ISBN9780141979755. Архивировано из оригинала 1 июня 2022 г. Проверено 15 мая 2021 г.
^ «Исторический тезаурус :: Поиск» . Historicalthesaurus.arts.gla.ac.uk . Архивировано из оригинала 28 октября 2017 г. Проверено 28 октября 2017 г.
^ ab «Странный мир гапакс-легоменона | Зритель». Архивировано из оригинала 1 июня 2022 г. Проверено 4 ноября 2020 г.
^ Фарр, Клайд (1920). Гомеровский греческий, книга для начинающих. DC Heath & Co., Издательство. п. XXII.
^ Рис, Стив. «Hapax Legomena», в Маргалит Финкельберг (редактор), Энциклопедия Гомера (Оксфорд: Блэквелл, 2011) 330–331. Hapax Legomena в Homer. Архивировано 1 января 2020 г. в Wayback Machine.
^ ( Ил . 24.540)
^ например, Ричард Бокэм Еврейский мир вокруг Нового Завета: сборник эссе I, стр. 431, 2008 г.: «Новый Заветный хапакс, который встречается в Герме 19 раз...»
^ Джон Ф. Уолворд и Рой Б. Зак, Комментарий к «Познанию Библии: издание Нового Завета» , Дэвид К. Кук, 1983, стр. 860, ISBN 0-88207-812-7 .
^ Г. Клаффенбах, Lex de astynomis Pergamenorum (1954).
^ Природа и функция воды, ванн, купания и гигиены из ... - Страница 252 Синтия Коссо, Энн Скотт - 2009 « Гюнтер Клаффенбах , «Die Astynomeninschrift von Pergamon», Abhandlungen der Deutschen Akademie der Wissenschaften zu Berlin. Klasse für Sprachen, Literatur und Kunst 6 (1953), 3–25 взял на себя ответственность за предоставление полного, но строго филологического комментария».
^ Цукерманн, Гилад (2020). Возрождение: от возникновения израильского языка к возрождению языка в Австралии и за ее пределами. Нью-Йорк: Издательство Оксфордского университета. ISBN9780199812790. Архивировано из оригинала 5 мая 2020 г. Проверено 30 апреля 2020 г.
^ «Ковчег, дизайн и размер»: Помощь в понимании Библии , Общество Сторожевой Башни, Библий и трактатов, 1971.
^ Блэр, Юдит М. (2009). Дедемонизация Ветхого Завета: исследование Азазеля, Лилит, Дебера, Кетеба и Решефа в еврейской Библии . Тюбинген, Германия: Мор Зибек. стр. 92–95. ISBN9783161501319.
^ Танулманьок Сентмартони Сабо Геза хатванадик születésnapjára (на венгерском языке)
^ Тибор, Сёч. «A turul-monda szövegkapcolatai a középkori írásos hagyományunkban. В: Középkortörténeti tanulmanyok 6. Szerk.: G. Tóth Péter, Szabó Pál. Szeged, 2010. 249–259».
^ «Триады Ирландии». www.smo.uhi.ac.uk. _ Архивировано из оригинала 9 апреля 2016 г. Проверено 28 января 2019 г.
^ "Наряд в "Энциклопедии Дантески"" . www.treccani.it (на итальянском языке). Архивировано из оригинала 17 ноября 2018 г. Проверено 28 января 2019 г.
^ Льюис, Коннектикут и Шорт, К. (1879) Латинский словарь, Оксфордский университет, Clarendon Press, стр.1599.
^ "Тертуллиан: Де Паллио". Архивировано из оригинала 4 марта 2016 г. Проверено 28 ноября 2015 г.
^ Sblendorio Cugusi MT CLE 428 и лат. Эойгена. Studia philologica валентина, 2008, т. 1, с. 11, стр. 327–350. (на итальянском языке).
^ Андрей Зализняк, Новгородская Русь по берестяным грамотам: взгляд из 2012 г. Архивировано 3 ноября 2018 г. в Wayback Machine (Новгородская Русь по берестяным грамотам: вид 2012 г.), стенограмма лекции.
^ А. Л. Шилов (А.Л. Шилов), ЭТНОНИМЫ И НЕСЛАВЯНСКИЕ АНТРОПОНИМЫ БЕРЕСТЯНЫХ ГРАМОТ. Архивировано 7 ноября 2017 г. в Wayback Machine (Этнонимы и неславянские антропонимы в берестяных рукописях).
^ "ХАПАКС".
^ Родригес, Лола Понс. «Frecuencia linguistica y novedad grmatical. Propuestas sobre el hápax y las formas aisladas, con ejemplos del XV castellano». Ибероромания 2013, вып. 78 (2013): 222–245.
^ "Холлис Фрэмптон в IMDB" . IMDB . Архивировано из оригинала 6 июня 2014 г. Проверено 14 апреля 2014 г.
^ «Победитель University Challenge Тед Лавдей: я узнал свои ответы в Википедии» . Архивировано из оригинала 29 октября 2020 г. Проверено 27 января 2020 г.
^ «Этот парень только что выиграл университетский конкурс с одним нелепым ответом» . 14 апреля 2015 года. Архивировано из оригинала 8 мая 2017 года . Проверено 26 апреля 2017 г. .
^ «Лучший участник университетского конкурса получил высокую оценку после сверхбыстрых ответов» . Daily Mirror . 14 апреля 2015 г. Архивировано из оригинала 27 января 2020 г. . Проверено 27 января 2020 г.
^ sabotagetimes.com. Архивировано 15 октября 2015 г. в Wayback Machine ; youtube.com. Архивировано 11 апреля 2017 г. на Wayback Machine.
^ Архивировано в Ghostarchive и Wayback Machine: Vsauce; Стивенс, Майкл (15 сентября 2015 г.). «Тайна Зипфа». YouTube . Проверено 3 августа 2020 г.
^ "Происхождение свитков - NetHack Wiki" . Архивировано из оригинала 08 февраля 2021 г. Проверено 1 февраля 2021 г.
Внешние ссылки
Найдите hapax legomenon в Викисловаре, бесплатном словаре.
Программное обеспечение Java с открытым исходным кодом для анализа текста и расчета коэффициента hapax (JHapax) (архив)