stringtranslate.com

Разрешение словесно-смысловой неоднозначности

Разрешение неоднозначности словесного смысла — это процесс определения того, какой смысл слова подразумевается впредложении или другом сегменте контекста . Ви познании человеческого языка это обычно происходит подсознательно.

Учитывая, что естественный язык требует отражения неврологической реальности, сформированной возможностями нейронных сетей мозга , перед компьютерной наукой в ​​течение длительного времени стояла задача разработки возможностей компьютеров для обработки естественного языка и машинного обучения .

Было исследовано множество методов, включая методы на основе словарей, которые используют знания, закодированные в лексических ресурсах, контролируемые методы машинного обучения , в которых классификатор обучается для каждого отдельного слова на корпусе примеров, вручную аннотированных по смыслу, и полностью неконтролируемые методы, которые кластеризуют вхождения слов, тем самым вызывая смыслы слов. Среди них контролируемые подходы к обучению были наиболее успешными алгоритмами на сегодняшний день.

Точность текущих алгоритмов трудно оценить без множества оговорок. В английском языке точность на грубозернистом ( омографическом ) уровне обычно превышает 90% (по состоянию на 2009 год), а некоторые методы на отдельных омографах достигают более 96%. На более мелкозернистых смысловых различиях наивысшие точности от 59,1% до 69,0% были зарегистрированы в оценочных упражнениях (SemEval-2007, Senseval-2), где базовая точность простейшего возможного алгоритма всегда выбирать наиболее частый смысл составляла 51,4% и 57% соответственно.

Варианты

Для устранения неоднозначности требуются два строгих входа: словарь для указания смыслов, которые должны быть устранены, и корпус языковых данных, которые должны быть устранены (в некоторых методах также требуется учебный корпус языковых примеров). Задача WSD имеет два варианта: «лексическая выборка» (устранение неоднозначности вхождений небольшой выборки целевых слов, которые были предварительно выбраны) и задача «все слова» (устранение неоднозначности всех слов в текущем тексте). Задача «все слова» обычно считается более реалистичной формой оценки, но создание корпуса обходится дороже, поскольку людям-аннотаторам приходится читать определения для каждого слова в последовательности каждый раз, когда им нужно вынести суждение о тегировании, а не один раз для блока примеров для одного и того же целевого слова.

История

WSD была впервые сформулирована как отдельная вычислительная задача в ранние дни машинного перевода в 1940-х годах, что сделало ее одной из старейших проблем в компьютерной лингвистике. Уоррен Уивер впервые представил проблему в вычислительном контексте в своем меморандуме о переводе 1949 года. [1] Позднее Бар-Хиллель (1960) утверждал [2] , что WSD не может быть решена «электронным компьютером» из-за необходимости в целом моделировать все мировые знания.

В 1970-х годах WSD была подзадачей систем семантической интерпретации, разработанных в области искусственного интеллекта, начиная с семантики предпочтений Уилкса . Однако, поскольку системы WSD в то время были в значительной степени основаны на правилах и кодировались вручную, они были склонны к узкому месту в получении знаний.

К 1980-м годам стали доступны масштабные лексические ресурсы, такие как Оксфордский словарь современного английского языка для продвинутых учащихся (OALD): ручное кодирование было заменено знаниями, автоматически извлекаемыми из этих ресурсов, но разрешение неоднозначности по-прежнему основывалось на знаниях или словаре.

В 1990-х годах статистическая революция способствовала развитию компьютерной лингвистики, и WSD стала парадигмальной проблемой, к которой можно было применять методы контролируемого машинного обучения.

В 2000-х годах контролируемые методы достигли плато в точности, и поэтому внимание переключилось на более грубые ощущения, адаптацию домена , полуконтролируемые и неконтролируемые системы на основе корпусов, комбинации различных методов и возврат систем, основанных на знаниях, через методы, основанные на графах. Тем не менее, контролируемые системы продолжают работать лучше всего.

Трудности

Различия между словарями

Одной из проблем с разрешением неоднозначности смысла слова является решение того, что такое смыслы, поскольку разные словари и тезаурусы будут предоставлять разные разделения слов на смыслы. Некоторые исследователи предлагают выбрать конкретный словарь и использовать его набор смыслов для решения этой проблемы. Однако в целом результаты исследований с использованием широких различий в смыслах были намного лучше, чем с использованием узких. [3] [4] Большинство исследователей продолжают работать над мелкозернистым WSD.

Большинство исследований в области WSD выполняется с использованием WordNet в качестве справочного инвентаря смыслов для английского языка. WordNet — это вычислительный лексикон , который кодирует понятия как наборы синонимов (например, понятие автомобиля кодируется как {car, auto, automotive, machine, motorcar}). Другие ресурсы, используемые для устранения неоднозначности, включают Roget's Thesaurus [5] и Wikipedia . [6] Совсем недавно BabelNet , многоязычный энциклопедический словарь, использовался для многоязычного WSD. [7]

Тегирование частей речи

В любом реальном тесте маркировка частей речи и маркировка смысла оказались очень тесно связанными, причем каждая из них потенциально налагает ограничения на другую. Вопрос о том, следует ли держать эти задачи вместе или разделить, до сих пор не решен единогласно, но в последнее время ученые склоняются к тому, чтобы тестировать эти вещи по отдельности (например, в соревнованиях Senseval/ SemEval части речи предоставляются в качестве входных данных для текста, чтобы устранить неоднозначность).

И WSD, и разметка частей речи включают устранение неоднозначности или разметку со словами. Однако алгоритмы, используемые для одного, как правило, не работают хорошо для другого, в основном потому, что часть речи слова в первую очередь определяется непосредственно соседними одним-тремя словами, тогда как смысл слова может определяться словами, расположенными дальше. Уровень успешности алгоритмов разметки частей речи в настоящее время намного выше, чем для WSD, и на современном уровне составляет около 96% [8] точности или лучше, по сравнению с менее чем 75% [ требуется цитата ] точности при устранении неоднозначности смысла слова с контролируемым обучением . Эти цифры типичны для английского языка и могут сильно отличаться от цифр для других языков.

Различия между судьями

Другая проблема — это дисперсия между судьями . Системы WSD обычно тестируются путем сравнения их результатов по заданию с результатами человека. Однако, хотя относительно легко назначать части речи тексту, обучение людей маркировать смыслы оказалось гораздо сложнее. [9] Хотя пользователи могут запомнить все возможные части речи, которые может иметь слово, для людей часто невозможно запомнить все смыслы, которые может иметь слово. Более того, люди не соглашаются с поставленной задачей — дать список смыслов и предложений, и люди не всегда соглашаются с тем, какое слово принадлежит к какому смыслу. [10]

Поскольку человеческая производительность служит стандартом, она является верхней границей для производительности компьютера. Однако человеческая производительность намного лучше на грубозернистых, чем на тонкозернистых различиях, поэтому снова-таки исследования грубозернистых различий [11] [12] были подвергнуты проверке в недавних упражнениях по оценке WSD. [3] [4]

Инвентарь чувств и зависимость алгоритмов от задач

Независимый от задачи инвентарь смысла не является последовательной концепцией: [13] каждая задача требует своего собственного разделения значения слова на смыслы, соответствующие задаче. Кроме того, для разных приложений могут потребоваться совершенно разные алгоритмы. В машинном переводе проблема принимает форму выбора целевого слова. «Смыслы» — это слова на целевом языке, которые часто соответствуют значительным различиям в значении в исходном языке («bank» можно перевести как французское banque — то есть «финансовый банк» или rive — то есть «берег реки»). В информационном поиске инвентарь смысла не обязательно требуется, потому что достаточно знать, что слово используется в том же значении в запросе и извлеченном документе; какое это значение, неважно.

Дискретность чувств

Наконец, само понятие « смысл слова » является скользким и спорным. Большинство людей могут согласиться с различиями на уровне грубозернистых омографов (например, ручка как пишущий инструмент или корпус), но спуститься на один уровень ниже до мелкозернистой полисемии , и возникают разногласия. Например, в Senseval-2, который использовал мелкозернистые смысловые различия, люди-аннотаторы согласились только в 85% случаев употребления слов. [14] Значение слова в принципе бесконечно изменчиво и чувствительно к контексту. Оно не делится легко на отдельные или дискретные подзначения. [15] Лексикографы часто обнаруживают в корпусах свободные и перекрывающиеся значения слов, а также стандартные или общепринятые значения, расширенные, модулированные и используемые ошеломляющим разнообразием способов. Искусство лексикографии заключается в обобщении корпуса до определений, которые вызывают и объясняют полный спектр значений слова, создавая впечатление, что слова ведут себя хорошо семантически. Однако совершенно не ясно, применимы ли эти же смысловые различия в вычислительных приложениях , поскольку решения лексикографов обычно обусловлены другими соображениями. В 2009 году была предложена задача, названная лексической заменой , в качестве возможного решения проблемы дискретности смысла. [16] Задача состоит в предоставлении замены для слова в контексте, которая сохраняет значение исходного слова (потенциально замены могут быть выбраны из полного лексикона целевого языка, таким образом преодолевая дискретность).

Подходы и методы

Существует два основных подхода к WSD — глубокий и поверхностный.

Глубокие подходы предполагают доступ к всеобъемлющему массиву мировых знаний . Эти подходы, как правило, не считаются очень успешными на практике, в основном потому, что такой массив знаний не существует в формате, пригодном для чтения компьютером, за пределами очень ограниченных областей. [17] Кроме того, из-за давней традиции в компьютерной лингвистике , попытки таких подходов с точки зрения кодированных знаний и в некоторых случаях может быть трудно отличить знания, связанные с лингвистическими или мировыми знаниями. Первая попытка была предпринята Маргарет Мастерман и ее коллегами в Кембриджском исследовательском подразделении языка в Англии в 1950-х годах. Эта попытка использовала в качестве данных версию тезауруса Роже на перфокартах и ​​его пронумерованные «головы» в качестве индикатора тем и искала повторения в тексте, используя алгоритм пересечения множеств. Она была не очень успешной, [18] но имела прочные связи с более поздними работами, особенно с оптимизацией машинного обучения Яровски метода тезауруса в 1990-х годах.

Поверхностные подходы не пытаются понять текст, а вместо этого рассматривают окружающие слова. Эти правила могут быть автоматически выведены компьютером с использованием учебного корпуса слов, помеченных их смыслами. Этот подход, хотя теоретически не такой мощный, как глубокие подходы, дает превосходные результаты на практике из-за ограниченных знаний компьютера о мире.

Существует четыре традиционных подхода к WSD:

Почти все эти подходы работают, определяя окно из n слов контента вокруг каждого слова, которое должно быть устранено неоднозначностью в корпусе, и статистически анализируя эти n окружающих слов. Два поверхностных подхода, используемых для обучения и последующего устранения неоднозначности, — это наивные байесовские классификаторы и деревья решений . В недавних исследованиях методы на основе ядра , такие как машины опорных векторов, показали превосходную производительность в контролируемом обучении . Подходы на основе графов также привлекли большое внимание исследовательского сообщества и в настоящее время достигают производительности, близкой к современному уровню.

Методы, основанные на словаре и знаниях

Алгоритм Леска [19] является основополагающим методом, основанным на словаре. Он основан на гипотезе, что слова, используемые вместе в тексте, связаны друг с другом и что эта связь может наблюдаться в определениях слов и их смыслах. Два (или более) слова устраняются путем нахождения пары словарных смыслов с наибольшим совпадением слов в их словарных определениях. Например, при устранении неоднозначности слов в «шишка» определения соответствующих смыслов включают слова вечнозеленый и дерево (по крайней мере в одном словаре). Похожий подход [20] ищет кратчайший путь между двумя словами: второе слово итеративно ищется среди определений каждого семантического варианта первого слова, затем среди определений каждого семантического варианта каждого слова в предыдущих определениях и так далее. Наконец, первое слово устраняется путем выбора семантического варианта, который минимизирует расстояние от первого до второго слова.

Альтернативой использованию определений является рассмотрение общей связи между словами и смыслами и вычисление семантического сходства каждой пары смыслов слов на основе заданной лексической базы знаний, такой как WordNet . Графические методы, напоминающие исследования распространения активации ранних дней исследований ИИ, применялись с некоторым успехом. Было показано, что более сложные графические подходы работают почти так же хорошо, как контролируемые методы [21] или даже превосходят их в определенных доменах. [3] [22] Недавно было сообщено, что простые меры связности графов , такие как степень , выполняют самые современные WSD при наличии достаточно богатой лексической базы знаний. [23] Кроме того, было показано, что автоматическая передача знаний в форме семантических отношений из Википедии в WordNet повышает эффективность простых методов, основанных на знаниях, позволяя им конкурировать с лучшими контролируемыми системами и даже превосходить их в условиях, специфичных для домена. [24]

Использование селективных предпочтений (или селективных ограничений) также полезно, например, зная, что человек обычно готовит еду, можно устранить неоднозначность слова «бас» в предложении «Я готовлю басы» (т. е. это не музыкальный инструмент).

Методы под наблюдением

Контролируемые методы основаны на предположении, что контекст может предоставить достаточно доказательств сам по себе, чтобы устранить неоднозначность слов (следовательно, здравый смысл и рассуждения считаются ненужными). Вероятно, каждый существующий алгоритм машинного обучения был применен к WSD, включая связанные с ним методы, такие как выбор признаков , оптимизация параметров и ансамблевое обучение . Было показано, что опорные векторные машины и обучение на основе памяти являются наиболее успешными подходами на сегодняшний день, вероятно, потому, что они могут справиться с высокой размерностью пространства признаков. Однако эти контролируемые методы подвержены новому узкому месту в получении знаний, поскольку они полагаются на значительные объемы вручную размеченных смысловых корпусов для обучения, которые трудоемки и дороги в создании.

Полуконтролируемые методы

Из-за отсутствия обучающих данных многие алгоритмы разрешения неоднозначности смысла слов используют полуконтролируемое обучение , которое допускает как маркированные, так и немаркированные данные. Алгоритм Яровского был ранним примером такого алгоритма. [25] Он использует свойства человеческих языков «Один смысл на словосочетание» и «Один смысл на дискурс» для разрешения неоднозначности смысла слов. Согласно наблюдениям, слова, как правило, демонстрируют только один смысл в большинстве заданных дискурсов и в заданных словосочетаниях. [26]

Подход бутстрэппинга начинается с небольшого количества начальных данных для каждого слова: либо вручную помеченные обучающие примеры , либо небольшое количество правил безошибочного принятия решений (например, «играть» в контексте «бас» почти всегда указывает на музыкальный инструмент). Начальные данные используются для обучения начального классификатора с использованием любого контролируемого метода. Затем этот классификатор используется на не помеченной части корпуса для извлечения большего обучающего набора, в который включены только самые надежные классификации. Процесс повторяется, каждый новый классификатор обучается на последовательно большем обучающем корпусе, пока не будет использован весь корпус или пока не будет достигнуто заданное максимальное количество итераций.

Другие полуконтролируемые методы используют большие объемы немаркированных корпусов для предоставления информации о совместном появлении , которая дополняет маркированные корпуса. Эти методы имеют потенциал для помощи в адаптации контролируемых моделей к различным доменам.

Кроме того, неоднозначное слово в одном языке часто переводится разными словами во втором языке в зависимости от смысла слова. Выровненные по словам двуязычные корпуса использовались для вывода кросс-лингвистических смысловых различий, своего рода полуконтролируемая система. [ необходима цитата ]

Неконтролируемые методы

Неконтролируемое обучение является самой большой проблемой для исследователей WSD. Основное предположение заключается в том, что схожие смыслы встречаются в схожих контекстах, и, таким образом, смыслы могут быть вызваны из текста путем кластеризации вхождений слов с использованием некоторой меры сходства контекста [27] , задача, называемая индукцией или дискриминацией смысла слова . Затем новые вхождения слова могут быть классифицированы в ближайшие индуцированные кластеры/смыслы. Производительность была ниже, чем для других методов, описанных выше, но сравнения затруднены, поскольку индуцированные смыслы должны быть сопоставлены с известным словарем смыслов слова. Если сопоставление с набором смыслов словаря нежелательно, могут быть выполнены оценки на основе кластеров (включая меры энтропии и чистоты). В качестве альтернативы методы индукции смысла слова можно протестировать и сравнить в приложении. Например, было показано, что индукция смысла слова улучшает кластеризацию результатов веб-поиска, повышая качество кластеров результатов и степень диверсификации списков результатов. [28] [29] Есть надежда, что неконтролируемое обучение позволит преодолеть узкие места в приобретении знаний , поскольку оно не зависит от ручного труда.

Представление слов с учетом их контекста с помощью плотных векторов фиксированного размера ( внедрение слов ) стало одним из самых фундаментальных блоков в нескольких системах обработки естественного языка. [30] [31] [32] Несмотря на то, что большинство традиционных методов встраивания слов объединяют слова с несколькими значениями в одно векторное представление, их все равно можно использовать для улучшения WSD. [33] Простой подход к использованию предварительно вычисленных встраиваний слов для представления смыслов слов заключается в вычислении центроидов смысловых кластеров. [34] [35] В дополнение к методам встраивания слов лексические базы данных (например, WordNet , ConceptNet , BabelNet ) также могут помогать неконтролируемым системам в отображении слов и их смыслов в виде словарей. Некоторые методы, которые объединяют лексические базы данных и встраивания слов, представлены в AutoExtend [36] [37] и Most Suitable Sense Annotation (MSSA). [38] В AutoExtend [37] они представляют метод, который разделяет входное представление объекта на его свойства, такие как слова и их смыслы слов. AutoExtend использует структуру графа для отображения слов (например, текста) и не-слов (например, наборов синтаксиса в WordNet ) как узлов, а отношения между узлами как ребер. Отношения (ребра) в AutoExtend могут либо выражать добавление, либо сходство между его узлами. Первое отражает интуицию, лежащую в основе исчисления смещения, [30], тогда как последнее определяет сходство между двумя узлами. В MSSA [38] неконтролируемая система устранения неоднозначности использует сходство между смыслами слов в фиксированном окне контекста для выбора наиболее подходящего смысла слова с использованием предварительно обученной модели встраивания слов и WordNet . Для каждого контекстного окна MSSA вычисляет центроид каждого определения смысла слова, усредняя векторы слов в глоссах WordNet (т. е. краткий определяющий глосс и один или несколько примеров использования) с использованием предварительно обученной модели встраивания слов. Эти центроиды позже используются для выбора смысла слова с наивысшим сходством целевого слова с его непосредственно соседними соседями (т. е. предшествующими и последующими словами). После того, как все слова аннотированы и устранены неоднозначности, их можно использовать в качестве обучающего корпуса в любой стандартной технике встраивания слов. В своей улучшенной версии MSSA может использовать встраивания смысла слова для повторения своего процесса устранения неоднозначности итеративно.

Другие подходы

Другие подходы могут отличаться по своим методам:

Другие языки

Местные препятствия и резюме

Узкое место в приобретении знаний, возможно, является основным препятствием для решения проблемы WSD. Неконтролируемые методы полагаются на знания о значениях слов, которые лишь скудно сформулированы в словарях и лексических базах данных. Контролируемые методы в решающей степени зависят от наличия вручную аннотированных примеров для каждого значения слова, требование, которое до сих пор [ когда? ] может быть выполнено только для нескольких слов в целях тестирования, как это делается в упражнениях Senseval .

Одной из самых многообещающих тенденций в исследовании WSD является использование самого большого корпуса , когда-либо доступного, Всемирной паутины , для автоматического получения лексической информации. [50] WSD традиционно понималась как промежуточная технология языковой инженерии, которая могла бы улучшить такие приложения, как поиск информации (IR). В этом случае, однако, верно и обратное: поисковые системы веб-сайтов реализуют простые и надежные методы IR, которые могут успешно добывать в Интернете информацию для использования в WSD. Историческая нехватка обучающих данных спровоцировала появление некоторых новых алгоритмов и методов, как описано в Автоматическое получение чувственно-тегированных корпусов .

Внешние источники знаний

Знание является фундаментальным компонентом WSD. Источники знаний предоставляют данные, которые необходимы для связывания смыслов со словами. Они могут варьироваться от корпусов текстов, как немаркированных, так и аннотированных смыслами слов, до машиночитаемых словарей, тезаурусов, глоссариев, онтологий и т. д. Их можно [51] [52] классифицировать следующим образом:

Структурировано:

  1. Машиночитаемые словари (MRD)
  2. Онтологии
  3. Тезаурусы

Неструктурированный:

  1. Ресурсы для совместного размещения
  2. Другие ресурсы (например , списки частотности слов , списки стоп-слов , доменные метки [53] и т. д.)
  3. Корпуса : сырые корпуса и смысловые аннотированные корпуса

Оценка

Сравнение и оценка различных систем WSD чрезвычайно сложны из-за различных наборов тестов, инвентаризаций чувств и принятых ресурсов знаний. До организации специальных оценочных кампаний большинство систем оценивались на внутренних, часто небольших, наборах данных . Чтобы протестировать свой алгоритм, разработчикам следует потратить свое время на аннотирование всех вхождений слов. И сравнение методов даже на одном корпусе недопустимо, если есть различные инвентаризации чувств.

Для определения общих наборов данных и процедур оценки были организованы кампании по публичной оценке. Senseval (теперь переименован в SemEval ) — это международный конкурс по разрешению неоднозначности смысла слов, который проводится каждые три года с 1998 года: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 [узурпированный] (2004) и его преемник SemEval (2007). Целью конкурса является организация различных лекций, подготовка и ручное аннотирование корпуса для тестирования систем, проведение сравнительной оценки систем WSD в нескольких типах задач, включая WSD со всеми словами и лексическими образцами для разных языков, а в последнее время и новые задачи, такие как маркировка семантической роли , WSD глосса, лексическая замена и т. д. Системы, представленные для оценки на этих конкурсах, обычно интегрируют различные методы и часто объединяют контролируемые и основанные на знаниях методы (особенно для того, чтобы избежать плохой работы при отсутствии обучающих примеров).

В последние годы 2007-2012 выбор оценочных заданий WSD увеличился, и критерий оценки WSD радикально изменился в зависимости от варианта оценочного задания WSD. Ниже перечислены различные задания WSD:

Выбор дизайна задачи

По мере развития технологий задачи разрешения неоднозначности слов (WSD) расширяются в различных направлениях исследований и для большего количества языков:

Программное обеспечение

Смотрите также

Ссылки

  1. Уивер 1949.
  2. Бар-Хиллель 1964, стр. 174–179.
  3. ^ abc Navigli, Litkowski & Hargraves 2007, стр. 30–35.
  4. ^ Аб Прадхан и др. 2007, стр. 87–92.
  5. ^ Яровски 1992, стр. 454–460.
  6. ^ Михалча 2007.
  7. ^ А. Моро; А. Раганато; Р. Навильи. Entity Linking meets Word Sense Disambiguation: a Unified Approach. Архивировано 08.08.2014 в Wayback Machine . Труды Ассоциации компьютерной лингвистики (TACL). 2. стр. 231–244. 2014.
  8. ^ Мартинес, Энджел Р. (январь 2012 г.). «Разметка частей речи: разметка частей речи». Wiley Interdisciplinary Reviews: Computational Statistics . 4 (1): 107–113. doi :10.1002/wics.195. S2CID  62672734. Архивировано из оригинала 15.07.2023 . Получено 01.04.2021 .
  9. ^ Феллбаум 1997.
  10. Снайдер и Палмер 2004, стр. 41–43.
  11. ^ Навильи 2006, стр. 105–112.
  12. ^ Сноу и др. 2007, стр. 1005–1014.
  13. ^ Палмер, Бабко-Малайя и Данг 2004, стр. 49–56.
  14. ^ Эдмондс 2000.
  15. ^ Килгарриф 1997, стр. 91–113.
  16. ^ Маккарти и Навильи, 2009, стр. 139–159.
  17. ^ Ленат и Гуха 1989.
  18. ^ Уилкс, Слэйтор и Гатри 1996.
  19. Леск 1986, стр. 24–26.
  20. ^ Диамантини, К.; Мирколи, А.; Потена, Д.; Сторти, Э. (2015-06-01). «Семантическая неоднозначность в системе обнаружения социальной информации». Международная конференция по технологиям и системам совместной работы (CTS) 2015 г. стр. 326–333. doi :10.1109/CTS.2015.7210442. ISBN 978-1-4673-7647-1. S2CID  13260353.
  21. ^ Навильи и Веларди 2005, стр. 1063–1074.
  22. ^ Агирре, Лопес де Лакаль и Сороа 2009, стр. 1501–1506.
  23. ^ Навильи и Лапата 2010, стр. 678–692.
  24. ^ Понцетто и Навильи 2010, стр. 1522–1531.
  25. ^ Яровски 1995, стр. 189–196.
  26. ^ Митков, Руслан (2004). "13.5.3 Два утверждения о чувствах". Оксфордский справочник по компьютерной лингвистике . OUP. стр. 257. ISBN 978-0-19-927634-9. Архивировано из оригинала 2022-02-22 . Получено 2022-02-22 .
  27. ^ Шютце 1998, стр. 97–123.
  28. ^ Навильи и Крисафулли 2010.
  29. ^ Ди Марко и Навильи 2013.
  30. ^ ab Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (16.01.2013). "Эффективная оценка представлений слов в векторном пространстве". arXiv : 1301.3781 [cs.CL].
  31. ^ Пеннингтон, Джеффри; Сочер, Ричард; Мэннинг, Кристофер (2014). «Перчатка: глобальные векторы для представления слов». Труды конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 1532–1543. doi : 10.3115/v1/d14-1162 . S2CID  1957433.
  32. ^ Bojanowski, Piotr; Grave, Edouard; Joulin, Armand; Mikolov, Tomas (декабрь 2017 г.). «Обогащение векторов слов с помощью информации о подсловах». Transactions of the Association for Computational Linguistics . 5 : 135–146. arXiv : 1607.04606 . doi : 10.1162/tacl_a_00051 . ISSN  2307-387X.
  33. ^ Якобаччи, Игнасио; Пилехвар, Мохаммад Тахер; Навильи, Роберто (2016). «Внедрения для устранения неоднозначности смысла слов: оценочное исследование». Труды 54-го ежегодного собрания Ассоциации компьютерной лингвистики (том 1: длинные статьи) . Берлин, Германия: Ассоциация компьютерной лингвистики: 897–907. doi : 10.18653/v1/P16-1085 . hdl : 11573/936571 . Архивировано из оригинала 28.10.2019 . Получено 28.10.2019 .
  34. ^ Бхингардив, Судха; Сингх, Дхирендра; В, Рудрамурти; Редкар, Ханумант; Бхаттачарья, Пушпак (2015). «Неконтролируемое обнаружение наиболее частых смыслов с использованием вложений слов». Труды конференции 2015 года Североамериканского отделения Ассоциации компьютерной лингвистики: Технологии человеческого языка . Денвер, Колорадо: Ассоциация компьютерной лингвистики. стр. 1238–1243. doi :10.3115/v1/N15-1132. S2CID  10778029. Архивировано из оригинала 21.01.2023 . Получено 21.01.2023 .
  35. ^ Бутнару, Андрей; Ионеску, Раду Тудор; Христя, Флорентина (2017). «ShotgunWSD: неконтролируемый алгоритм для глобальной неоднозначности смысла слов, вдохновленный секвенированием ДНК». Труды 15-й конференции Европейского отделения Ассоциации компьютерной лингвистики : 916–926. arXiv : 1707.08084 . Архивировано из оригинала 21.01.2023 . Получено 21.01.2023 .
  36. ^ Rothe, Sascha; Schütze, Hinrich (2015). "AutoExtend: Extending Word Embeddings to Embeddings for Synsets and Lexemes". Том 1: Длинные статьи . Ассоциация компьютерной лингвистики и Международная объединенная конференция по обработке естественного языка. Труды 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й Международной объединенной конференции по обработке естественного языка . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 1793–1803. arXiv : 1507.01127 . Bibcode :2015arXiv150701127R. doi :10.3115/v1/p15-1173. S2CID  15687295.
  37. ^ ab Rothe, Sascha; Schütze, Hinrich (сентябрь 2017 г.). «AutoExtend: объединение внедрений слов с семантическими ресурсами». Computational Linguistics . 43 (3): 593–617. doi : 10.1162/coli_a_00294 . ISSN  0891-2017.
  38. ^ ab Ruas, Terry; Grosky, William; Aizawa, Akiko (декабрь 2019 г.). «Многосмысловые вложения посредством процесса устранения неоднозначности смысла слова». Expert Systems with Applications . 136 : 288–303. arXiv : 2101.08700 . doi : 10.1016/j.eswa.2019.06.026. hdl : 2027.42/145475 . S2CID  52225306.
  39. ^ Глиоццо, Маньини и Страппарава 2004, стр. 380–387.
  40. ^ Буителаар и др. 2006, стр. 275–298.
  41. ^ Маккарти и др. 2007, стр. 553–590.
  42. Мохаммад и Херст 2006, стр. 121–128.
  43. ^ Лапата и Келлер 2007, стр. 348–355.
  44. ^ Иде, Эрьявец и Туфис 2002, стр. 54–60.
  45. ^ Чан и Нг 2005, стр. 1037–1042.
  46. ^ Шибер, Стюарт М. (1992). Формализмы грамматики на основе ограничений: синтаксический анализ и вывод типов для естественных и компьютерных языков. Массачусетс: MIT Press. ISBN 978-0-262-19324-5. Архивировано из оригинала 2023-07-15 . Получено 2018-12-23 .
  47. ^ Бхаттачарья, Индраджит, Лиз Гетур и Йошуа Бенджио. Неконтролируемое разрешение смысловой неоднозначности с использованием двуязычных вероятностных моделей Архивировано 09.01.2016 в Wayback Machine . Труды 42-го ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2004.
  48. ^ Диаб, Мона и Филип Резник. Неконтролируемый метод разметки смысла слов с использованием параллельных корпусов. Архивировано 04.03.2016 в Wayback Machine . Труды 40-го ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2002.
  49. ^ Маниш Синха, Махеш Кумар, Прабхакар Панде, Лакшми Кашьяп и Пушпак Бхаттачарья. Устранение неоднозначности смысла слов в хинди. Архивировано 04.03.2016 в Wayback Machine . На Международном симпозиуме по машинному переводу, обработке естественного языка и системам поддержки перевода, Дели, Индия, 2004.
  50. ^ Килгарриф и Грефенстетте 2003, стр. 333–347.
  51. ^ Литковский 2005, стр. 753–761.
  52. ^ Агирре и Стивенсон 2007, стр. 217–251.
  53. ^ Маньини и Кавалья 2000, стр. 1413–1418.
  54. ^ Люсия Спесия, Мария дас Гракас Вольпе Нунес, Габриэла Каштелу Бранку Рибейру и Марк Стивенсон. Многоязычный против одноязычного WSD Архивировано 10.04.2012 в Wayback Machine . В EACL-2006 Workshop on Making Sense of Sense: Bringing Psycholinguistics and Computational Linguistics Together, страницы 33–40, Тренто, Италия, апрель 2006.
  55. ^ Элс Лефевер и Вероник Хосте. Задача 3 SemEval-2010: разрешение неоднозначности межъязыкового смысла слов. Архивировано 16.06.2010 в Wayback Machine . Труды семинара по семантическим оценкам: последние достижения и будущие направления. 4-4 июня 2009 г., Боулдер, Колорадо.
  56. ^ R. Navigli, DA Jurgens, D. Vannella. SemEval-2013 Задача 12: Разрешение неоднозначности многоязычных значений слов Архивировано 08.08.2014 в Wayback Machine . Труды седьмого Международного семинара по семантической оценке (SemEval) на Второй совместной конференции по лексической и вычислительной семантике (*SEM 2013), Атланта, США, 14–15 июня 2013 г., стр. 222–231.
  57. ^ Люсия Спесия, Мария дас Гракас Вольпе Нунес, Габриэла Каштелу Бранку Рибейру и Марк Стивенсон. Многоязычный против одноязычного WSD Архивировано 10.04.2012 в Wayback Machine . В EACL-2006 Workshop on Making Sense of Sense: Bringing Psycholinguistics and Computational Linguistics Together, страницы 33–40, Тренто, Италия, апрель 2006.
  58. ^ Энеко Агирре и Айтор Сороа. Semeval-2007, задача 02: оценка систем индукции и различения смысла слов Архивировано 28.02.2013 в Wayback Machine . Труды 4-го Международного семинара по семантическим оценкам, стр. 7–12, 23–24 июня 2007 г., Прага, Чешская Республика.
  59. ^ "Babelfy". Babelfy. Архивировано из оригинала 2014-08-08 . Получено 2018-03-22 .
  60. ^ "BabelNet API". Babelnet.org. Архивировано из оригинала 2018-03-22 . Получено 2018-03-22 .
  61. ^ "WordNet::SenseRelate". Senserelate.sourceforge.net. Архивировано из оригинала 2018-03-21 . Получено 2018-03-22 .
  62. ^ "UKB: Graph Base WSD". Ixa2.si.ehu.es. Архивировано из оригинала 2018-03-12 . Получено 2018-03-22 .
  63. ^ "Lexical Knowledge Base (LKB)". Moin.delph-in.net. 2018-02-05. Архивировано из оригинала 2018-03-09 . Получено 2018-03-22 .
  64. ^ alvations. "pyWSD". Github.com. Архивировано из оригинала 2018-06-11 . Получено 2018-03-22 .

Цитируемые работы

Дальнейшее чтение

Внешние ссылки