stringtranslate.com

Смысловая неоднозначность

Устранение смысловой неоднозначности ( WSD ) — это процесс определения того, какой смысл слова имеется в виду в предложении или другом сегменте контекста . При обработке и познании человеческого языка это обычно происходит подсознательно/автоматически, но часто может привлекать сознательное внимание, когда двусмысленность ухудшает ясность общения, учитывая широко распространенную многозначность естественного языка . В компьютерной лингвистике это открытая проблема , которая влияет на другие виды письменной речи, связанные с компьютером, такие как дискурс , повышение релевантности поисковых систем , разрешение анафор , связность и вывод .

Учитывая, что естественный язык требует отражения нейрологической реальности, сформированной способностями нейронных сетей мозга , перед информатикой стояла долгосрочная задача по развитию способности компьютеров выполнять обработку естественного языка и машинное обучение .

Было исследовано множество методов, в том числе методы на основе словаря, в которых используются знания, закодированные в лексических ресурсах, методы контролируемого машинного обучения , в которых классификатор обучается для каждого отдельного слова на корпусе примеров, вручную размеченных по смыслу, и полностью неконтролируемые методы, которые группируются. появление слов, тем самым вызывая смысл слов. Среди них подходы к контролируемому обучению на сегодняшний день являются наиболее успешными алгоритмами .

Точность существующих алгоритмов трудно оценить без множества оговорок. В английском языке точность на грубом уровне ( омографах ) обычно превышает 90% (по состоянию на 2009 год), при этом некоторые методы для конкретных омографов достигают более 96%. Что касается более мелких различий смыслов, то в ходе оценочных упражнений (SemEval-2007, Senseval-2) сообщалось о максимальной точности от 59,1% до 69,0%, где базовая точность простейшего возможного алгоритма всегда выбора наиболее частого смысла составляла 51,4%. и 57% соответственно.

Варианты

Устранение неоднозначности требует двух строгих входных данных: словаря для определения значений, которые необходимо устранить неоднозначность, и корпуса языковых данных , которые необходимо устранить неоднозначность (в некоторых методах также требуется обучающий корпус языковых примеров). Задача WSD имеет два варианта: «лексическая выборка» (устранение неоднозначности вхождений небольшой выборки целевых слов, которые были ранее выбраны) и задача «все слова» (устранение неоднозначности всех слов в бегущем тексте). Задача «Все слова» обычно считается более реалистичной формой оценки, но создание корпуса обходится дороже, поскольку аннотаторам-людям приходится читать определения для каждого слова в последовательности каждый раз, когда им нужно принять решение о тегировании, а не один раз. для блока экземпляров одного и того же целевого слова.

История

WSD была впервые сформулирована как отдельная вычислительная задача на заре машинного перевода в 1940-х годах, что сделало ее одной из старейших задач компьютерной лингвистики. Уоррен Уивер впервые представил эту проблему в вычислительном контексте в своем меморандуме о переводе 1949 года. [1] Позже Бар-Хилель (1960) утверждал [2] , что WSD не может быть решена с помощью «электронного компьютера» из-за необходимости в целом моделировать все мировые знания.

В 1970-х годах WSD представляла собой подзадачу систем семантической интерпретации, разработанных в области искусственного интеллекта, начиная с семантики предпочтений Уилкса . Однако, поскольку системы WSD в то время в основном основывались на правилах и кодировались вручную, они были подвержены узким местам в процессе получения знаний.

К 1980-м годам стали доступны крупномасштабные лексические ресурсы, такие как Оксфордский словарь современного английского языка для продвинутых учащихся (OALD): ручное кодирование было заменено знаниями, автоматически извлекаемыми из этих ресурсов, но устранение неоднозначности по-прежнему основывалось на знаниях или словарях. .

В 1990-х годах статистическая революция продвинула компьютерную лингвистику, и WSD стала парадигмальной проблемой, к которой можно было применить методы контролируемого машинного обучения.

В 2000-х годах точность контролируемых методов достигла плато, поэтому внимание сместилось к более грубым понятиям, адаптации предметной области , полуконтролируемым и неконтролируемым корпусным системам, комбинациям различных методов и возвращению систем, основанных на знаниях, через граф. -основанные методы. Тем не менее, контролируемые системы продолжают работать лучше всего.

Сложности

Различия между словарями

Одна из проблем, связанных с устранением неоднозначности смысла слова, заключается в определении того, что это за смысл, поскольку разные словари и тезаурусы обеспечивают разное разделение слов на смыслы. Некоторые исследователи предлагают выбрать конкретный словарь и использовать его набор смыслов для решения этой проблемы. Однако в целом результаты исследований, использующих широкие различия в смыслах, были намного лучше, чем результаты исследований, использующих узкие. [3] [4] Большинство исследователей продолжают работать над более детальной WSD.

Большинство исследований в области WSD проводится с использованием WordNet в качестве эталонного словаря английского языка. WordNet — это вычислительный словарь , который кодирует понятия в виде наборов синонимов (например, понятие автомобиля кодируется как {автомобиль, авто, автомобиль, машина, автомобиль}). Другие ресурсы, используемые для устранения неоднозначности, включают Тезаурус Роже [5] и Википедию . [6] Совсем недавно для многоязычного WSD стал использоваться BabelNet , многоязычный энциклопедический словарь. [7]

Маркировка частей речи

В любом реальном тесте тегирование части речи и смысловое тегирование оказались очень тесно связанными, причем каждое из них потенциально налагало ограничения на другое. Вопрос о том, следует ли хранить эти задачи вместе или разделять их, до сих пор не решен единогласно, но в последнее время ученые склоняются к тому, чтобы проверять эти вещи по отдельности (например, в конкурсах Senseval/ SemEval в качестве входных данных для устранения неоднозначности текста предоставляются части речи).

Как WSD, так и маркировка частей речи включают устранение неоднозначности или маркировку словами. Однако алгоритмы, используемые для одного, обычно не работают хорошо для другого, главным образом потому, что часть речи слова в первую очередь определяется соседними от одного до трех слов, тогда как смысл слова может определяться словами, расположенными дальше. . Уровень успеха для алгоритмов маркировки частей речи в настоящее время намного выше, чем для WSD, точность на современном уровне составляет около 96% [ 8 ] или выше по сравнению с точностью менее 75% . в смысле слова устранение неоднозначности с контролируемым обучением . Эти цифры типичны для английского языка и могут сильно отличаться от показателей для других языков.

Разница между судьями

Другая проблема – разногласия между судьями . Системы WSD обычно тестируются путем сравнения их результатов выполнения задачи с результатами человека. Однако, хотя приписать части речи к тексту относительно легко, оказалось, что научить людей отмечать смыслы гораздо сложнее. [9] Хотя пользователи могут запомнить все возможные части речи, которые может принимать слово, людям часто невозможно запомнить все значения, которые может принимать слово. Более того, люди не согласны с поставленной задачей — дать список значений и предложений, и люди не всегда могут прийти к единому мнению, какое слово в каком смысле принадлежит. [10]

Поскольку производительность человека служит стандартом, она является верхней границей производительности компьютера. Однако производительность человека намного лучше при использовании грубозернистых различий, чем при мелкозернистых различиях, и именно поэтому исследования по грубым различиям [11] [12] были подвергнуты проверке в недавних упражнениях по оценке WSD. [3] [4]

Определить инвентаризацию и зависимость алгоритмов от задач

Независимая от задачи инвентаризация смыслов не является целостной концепцией: [13] каждая задача требует своего собственного разделения значения слова на смыслы, соответствующие задаче. Кроме того, для разных приложений могут потребоваться совершенно разные алгоритмы. В машинном переводе проблема принимает форму выбора целевого слова. «Чувства» — это слова на изучаемом языке, которые часто соответствуют значительным различиям значений в исходном языке («банк» можно перевести на французский банк , то есть «финансовый банк», или «рив », то есть «край реки». '). При поиске информации инвентаризация смысла не обязательно требуется, поскольку достаточно знать, что слово используется в одном и том же смысле в запросе и полученном документе; какой это смысл, неважно.

Дискретность чувств

Наконец, само понятие « смысл слова » является скользким и спорным. Большинство людей могут прийти к согласию в различиях на уровне грубого омографа (например, ручка как пишущий инструмент или корпус), но спустившись на один уровень к более мелкозернистой полисемии , возникают разногласия. Например, в Senseval-2, в котором использовались детальные смысловые различия, люди-аннотаторы соглашались только в 85% случаев появления слов. [14] Значение слова в принципе бесконечно изменчиво и зависит от контекста. Его нелегко разделить на отдельные или дискретные подзначения. [15] Лексикографы часто обнаруживают в корпусах свободные и перекрывающиеся значения слов, а также стандартные или общепринятые значения, которые расширяются, модулируются и используются ошеломляющим разнообразием способов. Искусство лексикографии заключается в обобщении корпуса определений, которые вызывают и объясняют весь диапазон значений слова, создавая впечатление, что слова ведут себя семантически хорошо. Однако совсем не ясно, применимы ли эти же различия значений в вычислительных приложениях , поскольку решения лексикографов обычно обусловлены другими соображениями. В 2009 году задача, названная лексической заменой , была предложена как возможное решение проблемы смысловой дискретности. [16] Задача состоит в предоставлении заменителя слова в контексте, сохраняющем значение исходного слова (потенциально заменители могут быть выбраны из полного словарного запаса целевого языка, преодолевая таким образом дискретность).

Подходы и методы

Существует два основных подхода к WSD – глубокие подходы и поверхностные подходы.

Глубокие подходы предполагают доступ к всеобъемлющему массиву мировых знаний . Эти подходы, как правило, не считаются очень успешными на практике, главным образом потому, что такой массив знаний не существует в машиночитаемом формате за пределами очень ограниченных областей. [17] Кроме того, из-за давней традиции компьютерной лингвистики опробовать такие подходы с точки зрения закодированных знаний, и в некоторых случаях может быть трудно провести различие между знаниями, включенными в лингвистические или мировые знания. Первую попытку предприняли Маргарет Мастерман и ее коллеги из Кембриджского отдела языковых исследований в Англии в 1950-х годах. Эта попытка использовала в качестве данных перфокарточную версию тезауруса Роже и его пронумерованные «головки» в качестве индикатора тем и искала повторения в тексте, используя заданный алгоритм пересечения. Он не имел большого успеха [18] , но имел прочную связь с более поздними работами, особенно с оптимизацией тезаурусного метода машинным обучением Яровского в 1990-х годах.

Поверхностный подход не пытается понять текст, а вместо этого рассматривает окружающие слова. Эти правила могут быть автоматически выведены компьютером с использованием обучающего набора слов, помеченных их значениями. Этот подход, хотя теоретически и не так эффективен, как глубокие подходы, на практике дает превосходные результаты из-за ограниченных знаний компьютера.

Существует четыре традиционных подхода к WSD:

Почти все эти подходы работают путем определения окна из n содержательных слов вокруг каждого слова, которое необходимо устранить в корпусе, и статистического анализа этих n окружающих слов. Два поверхностных подхода, используемых для обучения, а затем устранения неоднозначности, — это наивные байесовские классификаторы и деревья решений . В недавних исследованиях методы на основе ядра , такие как машины опорных векторов, показали превосходную производительность в контролируемом обучении . Подходы на основе графов также привлекли большое внимание исследовательского сообщества и в настоящее время достигают производительности, близкой к современному уровню техники.

Словарные и основанные на знаниях методы

Алгоритм Леска [19] является оригинальным методом, основанным на словарях. Он основан на гипотезе о том, что слова, используемые вместе в тексте, связаны друг с другом и что эту связь можно наблюдать в определениях слов и их значений. Два (или более) слова устраняются неоднозначностью путем нахождения пары словарных значений с наибольшим совпадением слов в их словарных определениях. Например, при устранении неоднозначности слов из слова «сосновая шишка» определения соответствующих значений включают слова «вечнозеленый» и «дерево» (по крайней мере, в одном словаре). Подобный подход [20] ищет кратчайший путь между двумя словами: второе слово итеративно ищется среди определений каждого семантического варианта первого слова, затем среди определений каждого семантического варианта каждого слова в предыдущих определениях и так далее. на. Наконец, первое слово устраняется путем выбора семантического варианта, который минимизирует расстояние от первого до второго слова.

Альтернативой использованию определений является рассмотрение общей смысловой связи слов и вычисление семантического сходства каждой пары значений слов на основе заданной лексической базы знаний, такой как WordNet . Методы на основе графов, напоминающие исследования распространения активации на заре исследований ИИ, применялись с некоторым успехом. Было показано, что более сложные подходы на основе графов работают почти так же хорошо, как контролируемые методы [21] или даже превосходят их в определенных областях. [3] [22] Недавно сообщалось, что простые меры связности графов , такие как степень , выполняют современный WSD при наличии достаточно богатой лексической базы знаний. [23] Кроме того, было показано, что автоматическая передача знаний в форме семантических отношений из Википедии в WordNet стимулирует простые методы, основанные на знаниях, позволяя им конкурировать с лучшими контролируемыми системами и даже превосходить их в условиях конкретной предметной области. [24]

Использование предпочтений выбора (или ограничений выбора) также полезно: например, зная, что человек обычно готовит еду, можно устранить неоднозначность слова «бас» в фразе «Я готовлю бас» (т. е. это не музыкальный инструмент).

Контролируемые методы

Контролируемые методы основаны на предположении, что контекст сам по себе может предоставить достаточно доказательств для устранения неоднозначности слов (следовательно, здравый смысл и рассуждения считаются ненужными). Вероятно, каждый существующий алгоритм машинного обучения был применен к WSD, включая связанные с ним методы, такие как выбор функций , оптимизация параметров и ансамблевое обучение . Машины опорных векторов и обучение на основе памяти оказались наиболее успешными подходами на сегодняшний день, вероятно, потому, что они могут справиться с многомерностью пространства признаков. Однако эти контролируемые методы сталкиваются с новым узким местом в получении знаний, поскольку для обучения они полагаются на значительное количество корпусов, помеченных вручную сенсорными метками, создание которых трудоемко и дорого.

Полуконтролируемые методы

Из-за отсутствия обучающих данных многие алгоритмы устранения неоднозначности смысла слов используют полуконтролируемое обучение , которое позволяет использовать как помеченные, так и неразмеченные данные. Алгоритм Яровского был ранним примером такого алгоритма. [25] Он использует свойства человеческих языков «Один смысл на словосочетание» и «Один смысл на дискурс» для устранения неоднозначности смысла слов. Судя по наблюдениям, слова имеют тенденцию проявлять только один смысл в большинстве конкретных дискурсов и в данном словосочетании. [26]

Подход начальной загрузки начинается с небольшого количества исходных данных для каждого слова: либо обучающие примеры, помеченные вручную, либо небольшое количество надежных правил принятия решений (например, «играть» в контексте «бас» почти всегда указывает на музыкальный инструмент). Начальные значения используются для обучения исходного классификатора с использованием любого контролируемого метода. Затем этот классификатор используется в нетегированной части корпуса для извлечения более крупного обучающего набора, в который включены только наиболее достоверные классификации. Процесс повторяется, каждый новый классификатор обучается на последовательно увеличивающемся обучающем корпусе до тех пор, пока не будет использован весь корпус или пока не будет достигнуто заданное максимальное количество итераций.

Другие полуконтролируемые методы используют большое количество непомеченных корпусов для предоставления информации о совместном возникновении , которая дополняет помеченные корпуса. Эти методы могут помочь в адаптации контролируемых моделей к различным областям.

Кроме того, неоднозначное слово на одном языке часто переводится разными словами на втором языке в зависимости от смысла слова. Двуязычные корпуса , выровненные по словам, использовались для определения межъязыковых смысловых различий, что представляло собой своего рода полуконтролируемую систему. [ нужна цитата ]

Неконтролируемые методы

Обучение без присмотра является самой большой проблемой для исследователей WSD. Основное предположение заключается в том, что сходные смыслы возникают в схожих контекстах, и, таким образом, смыслы могут быть вызваны из текста путем группировки вхождений слов с использованием некоторой меры сходства контекста, [27] задача, называемая индукцией или распознаванием смысла слова . Затем новые появления слова можно классифицировать по ближайшим индуцированным кластерам/смыслам. Производительность была ниже, чем у других методов, описанных выше, но сравнения затруднены, поскольку вызываемые чувства должны быть сопоставлены с известным словарем значений слов. Если сопоставление с набором словарных смыслов нежелательно, можно выполнить оценки на основе кластеров (включая меры энтропии и чистоты). Альтернативно, методы индукции смысла слова можно протестировать и сравнить в приложении. Например, было показано, что индукция смысла слов улучшает кластеризацию результатов веб-поиска за счет повышения качества кластеров результатов и степени диверсификации списков результатов. [28] [29] Есть надежда, что обучение без учителя позволит преодолеть узкое место в приобретении знаний , поскольку оно не зависит от ручного труда.

Представление слов с учетом их контекста посредством плотных векторов фиксированного размера ( встраивание слов ) стало одним из наиболее фундаментальных блоков в нескольких системах НЛП. [30] [31] [32] Несмотря на то, что большинство традиционных методов встраивания слов объединяют слова с несколькими значениями в одно векторное представление, их все равно можно использовать для улучшения WSD. [33] Простой подход к использованию предварительно вычисленных вложений слов для представления смыслов слов состоит в вычислении центроидов смысловых кластеров. [34] [35] В дополнение к методам внедрения слов, лексические базы данных (например, WordNet , ConceptNet , BabelNet ) также могут помочь неконтролируемым системам в отображении слов и их значений в виде словарей. Некоторые методы, сочетающие лексические базы данных и встраивание слов, представлены в AutoExtend [36] [37] и Most Fit Sense Annotation (MSSA). [38] В AutoExtend [37] они представляют метод, который разделяет входное представление объекта на его свойства, такие как слова и их значения. AutoExtend использует структуру графа для отображения слов (например, текста) и объектов, не являющихся словами (например, синсетов в WordNet ), в качестве узлов, а взаимосвязей между узлами — в виде ребер. Отношения (ребра) в AutoExtend могут выражать сложение или сходство между его узлами. Первый отражает интуицию, лежащую в основе исчисления смещения, [30] , а второй определяет сходство между двумя узлами. В MSSA [38] неконтролируемая система устранения неоднозначности использует сходство между смыслами слов в фиксированном контекстном окне для выбора наиболее подходящего смысла слова с использованием предварительно обученной модели встраивания слов и WordNet . Для каждого контекстного окна MSSA вычисляет центроид каждого определения смысла слова путем усреднения векторов слов его слов в глоссах WordNet (т. е. кратком определяющем глоссе и одном или нескольких примерах использования), используя предварительно обученную модель встраивания слов. Эти центроиды позже используются для выбора смысла слова с наибольшим сходством целевого слова с его непосредственно соседними соседями (т. е. словами-предшественниками и последователями). После того, как все слова аннотированы и устранены неоднозначности, их можно использовать в качестве обучающего корпуса в любой стандартной технике встраивания слов. В своей улучшенной версии MSSA может использовать встраивания смысла слов для итеративного повторения процесса устранения неоднозначности.

Другие подходы

Другие подходы могут отличаться по своим методам:

Другие языки

Местные препятствия и резюме

Узкое место в получении знаний, возможно, является основным препятствием на пути решения проблемы WSD. Неконтролируемые методы основаны на знаниях о значениях слов, которые лишь скудно сформулированы в словарях и лексических базах данных. Контролируемые методы в решающей степени зависят от наличия вручную аннотированных примеров для каждого значения слова, что является необходимым условием [ когда? ] можно встретить только для нескольких слов в целях тестирования, как это делается в упражнениях Сенсеваля .

Одним из наиболее многообещающих направлений в исследованиях WSD является использование крупнейшего когда-либо доступного массива данных — Всемирной паутины — для автоматического получения лексической информации. [50] WSD традиционно понимался как технология разработки промежуточного языка, которая могла бы улучшить такие приложения, как поиск информации (IR). Однако в данном случае верно и обратное: поисковые системы в Интернете реализуют простые и надежные методы IR, которые могут успешно искать в Интернете информацию для использования в WSD. Историческая нехватка обучающих данных спровоцировала появление некоторых новых алгоритмов и методов, как описано в разделе « Автоматическое получение корпусов с сенсорными метками» .

Внешние источники знаний

Знания являются фундаментальным компонентом WSD. Источники знаний предоставляют данные, необходимые для связи смыслов со словами. Они могут варьироваться от корпусов текстов, немаркированных или аннотированных по смыслу слов, до машиночитаемых словарей, тезаурусов, глоссариев, онтологий и т. д. Их можно [51] [52] классифицировать следующим образом:

Структурированный:

  1. Машиночитаемые словари (MRD)
  2. Онтологии
  3. Тезаури

Неструктурированный:

  1. Ресурсы совместного размещения
  2. Другие ресурсы (такие как списки частотности слов , стоп-листы , метки доменов, [53] и т. д.)
  3. Корпуса : необработанные корпуса и корпуса со смысловыми аннотациями.

Оценка

Сравнивать и оценивать различные системы WSD чрезвычайно сложно из-за различных наборов тестов, наборов чувств и используемых ресурсов знаний. До организации конкретных оценочных кампаний большинство систем оценивались на основе собственных, часто небольших наборов данных . Чтобы протестировать свой алгоритм, разработчикам следует потратить время на аннотирование всех вхождений слов. И сравнение методов даже в одном корпусе недопустимо, если существуют разные по смыслу описи.

Для определения общих наборов данных и процедур оценки были организованы кампании общественной оценки. Senseval (теперь переименованный в SemEval ) — международный конкурс по устранению неоднозначности смысла слов, который проводится каждые три года, начиная с 1998 года: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) и его преемник SemEval (2007). . Целью конкурса является организация различных лекций, подготовка и ручное аннотирование корпуса для тестирования систем, проведение сравнительной оценки систем WSD в нескольких видах задач, включая все слова и лексические образцы WSD для разных языков, и, в последнее время, , новые задачи, такие как разметка семантических ролей , глоссария WSD, лексическая замена и т. д. Системы, представленные для оценки на этих конкурсах, обычно объединяют различные методы и часто сочетают контролируемые и основанные на знаниях методы (особенно во избежание плохих результатов из-за отсутствия обучающих примеров) .

В последние годы , 2007-2012 годы , выбор задач оценки WSD расширился, и критерий оценки WSD радикально изменился в зависимости от варианта задачи оценки WSD. Ниже перечислено разнообразие задач WSD:

Варианты оформления задач

По мере развития технологий задачи устранения неоднозначности в смысле слова (WSD) расширяются по-разному в зависимости от направлений исследований и для большего количества языков:

Программное обеспечение

Смотрите также

Рекомендации

  1. ^ Уивер 1949.
  2. ^ Бар-Гилель 1964, стр. 174–179.
  3. ^ abc Навильи, Литковски и Харгрейвс 2007, стр. 30–35.
  4. ^ Аб Прадхан и др. 2007, стр. 87–92.
  5. ^ Яровский 1992, стр. 454–460.
  6. ^ Михалча 2007.
  7. ^ А. Моро; А. Раганато; Р. Навильи. Связывание сущностей и устранение неоднозначности в смысле слова: единый подход. Архивировано 8 августа 2014 г. в Wayback Machine . Труды Ассоциации компьютерной лингвистики (TACL). 2. С. 231–244. 2014.
  8. ^ Мартинес, Анхель Р. (январь 2012 г.). «Теги части речи: Теги части речи». Междисциплинарные обзоры Wiley: вычислительная статистика . 4 (1): 107–113. дои : 10.1002/wics.195. S2CID  62672734. Архивировано из оригинала 15 июля 2023 г. Проверено 1 апреля 2021 г.
  9. ^ Феллбаум 1997.
  10. ^ Снайдер и Палмер 2004, стр. 41–43.
  11. ^ Навильи 2006, стр. 105–112.
  12. ^ Сноу и др. 2007, стр. 1005–1014.
  13. ^ Палмер, Бабко-Малайя и Данг 2004, стр. 49–56.
  14. ^ Эдмондс 2000.
  15. ^ Килгарриф 1997, стр. 91–113.
  16. ^ Маккарти и Навильи, 2009, стр. 139–159.
  17. ^ Ленат и Гуха 1989.
  18. ^ Уилкс, Слатор и Гатри 1996.
  19. ^ Леск 1986, стр. 24–26.
  20. ^ Диамантини, К.; Мирколи, А.; Потена, Д.; Сторти, Э. (1 июня 2015 г.). «Семантическое разрешение неоднозначности в системе обнаружения социальной информации». 2015 Международная конференция по технологиям и системам совместной работы (CTS) . стр. 326–333. дои : 10.1109/CTS.2015.7210442. ISBN 978-1-4673-7647-1. S2CID  13260353.
  21. ^ Навильи и Веларди 2005, стр. 1063–1074.
  22. ^ Агирре, Лопес де Лакаль и Сороа 2009, стр. 1501–1506.
  23. ^ Навильи и Лапата 2010, стр. 678–692.
  24. ^ Понцетто и Навильи 2010, стр. 1522–1531.
  25. ^ Яровский 1995, стр. 189–196.
  26. ^ Митьков, Руслан (2004). «13.5.3 Два утверждения о чувствах». Оксфордский справочник по компьютерной лингвистике . ОУП. п. 257. ИСБН 978-0-19-927634-9. Архивировано из оригинала 22 февраля 2022 г. Проверено 22 февраля 2022 г.
  27. ^ Шютце 1998, стр. 97–123.
  28. ^ Навильи и Крисафулли 2010.
  29. ^ Ди Марко и Навильи 2013.
  30. ^ аб Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (16 января 2013 г.). «Эффективная оценка представлений слов в векторном пространстве». arXiv : 1301.3781 [cs.CL].
  31. ^ Пеннингтон, Джеффри; Сошер, Ричард; Мэннинг, Кристофер (2014). «Перчатка: глобальные векторы для представления слов». Материалы конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 1532–1543. дои : 10.3115/v1/d14-1162 . S2CID  1957433.
  32. ^ Бояновский, Петр; Грейв, Эдуард; Жулен, Арман; Миколов, Томас (декабрь 2017 г.). «Обогащение векторов слов информацией о подсловах». Труды Ассоциации компьютерной лингвистики . 5 : 135–146. arXiv : 1607.04606 . дои : 10.1162/tacl_a_00051 . ISSN  2307-387X.
  33. ^ Якобаччи, Игнасио; Пилевар, Мохаммад Тахер; Навильи, Роберто (2016). «Вложения для устранения неоднозначности смысла слова: оценочное исследование». Материалы 54-го ежегодного собрания Ассоциации компьютерной лингвистики (Том 1: Длинные статьи) . Берлин, Германия: Ассоциация компьютерной лингвистики: 897–907. дои : 10.18653/v1/P16-1085 . hdl : 11573/936571 . Архивировано из оригинала 28 октября 2019 г. Проверено 28 октября 2019 г.
  34. ^ Бхингардив, Судха; Сингх, Дхирендра; В., Рудрамурти; Редкар, Ханумант; Бхаттачарья, Пушпак (2015). «Неконтролируемое обнаружение наиболее часто встречающихся смыслов с использованием встраивания слов». Материалы конференции Североамериканского отделения Ассоциации компьютерной лингвистики 2015 года: технологии человеческого языка . Денвер, Колорадо: Ассоциация компьютерной лингвистики. стр. 1238–1243. дои : 10.3115/v1/N15-1132. S2CID  10778029. Архивировано из оригинала 21 января 2023 г. Проверено 21 января 2023 г.
  35. ^ Бутнару, Андрей; Ионеску, Раду Тудор; Христеа, Флорентина (2017). «ShotgunWSD: неконтролируемый алгоритм для глобального устранения неоднозначности смысла слов, основанный на секвенировании ДНК». Материалы 15-й конференции Европейского отделения Ассоциации компьютерной лингвистики : 916–926. arXiv : 1707.08084 . Архивировано из оригинала 21 января 2023 г. Проверено 21 января 2023 г.
  36. ^ Роте, Саша; Шютце, Хинрих (2015). «AutoExtend: расширение вложений слов до вложений для синсетов и лексем». Том 1: Длинные статьи . Ассоциация компьютерной лингвистики и Международная совместная конференция по обработке естественного языка. Материалы 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й Международной совместной конференции по обработке естественного языка . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 1793–1803. arXiv : 1507.01127 . Бибкод : 2015arXiv150701127R. дои : 10.3115/v1/p15-1173. S2CID  15687295.
  37. ^ Аб Роте, Саша; Шютце, Хинрих (сентябрь 2017 г.). «AutoExtend: объединение встраивания слов с семантическими ресурсами». Компьютерная лингвистика . 43 (3): 593–617. дои : 10.1162/coli_a_00294 . ISSN  0891-2017.
  38. ^ Аб Руас, Терри; Гроски, Уильям; Айзава, Акико (декабрь 2019 г.). «Многозначное встраивание посредством процесса устранения неоднозначности смысла слова». Экспертные системы с приложениями . 136 : 288–303. arXiv : 2101.08700 . дои : 10.1016/j.eswa.2019.06.026. hdl : 2027.42/145475 . S2CID  52225306.
  39. ^ Глиоццо, Маньини и Страппарава 2004, стр. 380–387.
  40. ^ Буителаар и др. 2006, стр. 275–298.
  41. ^ Маккарти и др. 2007, стр. 553–590.
  42. ^ Мохаммад и Херст 2006, стр. 121–128.
  43. ^ Лапата и Келлер 2007, стр. 348–355.
  44. ^ Иде, Эрьявец и Туфис 2002, стр. 54–60.
  45. ^ Чан и Нг 2005, стр. 1037–1042.
  46. ^ Шибер, Стюарт М. (1992). Грамматические формализмы, основанные на ограничениях: синтаксический анализ и вывод типов для естественных и компьютерных языков. Массачусетс: MIT Press. ISBN 978-0-262-19324-5. Архивировано из оригинала 15 июля 2023 г. Проверено 23 декабря 2018 г.
  47. ^ Бхаттачарья, Индраджит, Лизе Гетур и Йошуа Бенджио. Неконтролируемое устранение смысловой неоднозначности с использованием двуязычных вероятностных моделей. Архивировано 9 января 2016 г. в Wayback Machine . Материалы 42-го ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2004.
  48. ^ Диаб, Мона и Филип Резник. Неконтролируемый метод смысловой маркировки слов с использованием параллельных корпусов. Архивировано 4 марта 2016 г. в Wayback Machine . Материалы 40-го ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2002.
  49. ^ Маниш Синха, Махеш Кумар, Прабхакар Панде, Лакшми Кашьяп и Пушпак Бхаттачарья. Устранение неоднозначности смысла слов на хинди. Архивировано 4 марта 2016 г. в Wayback Machine . На Международном симпозиуме по машинному переводу, системам обработки естественного языка и поддержки перевода, Дели, Индия, 2004 г.
  50. ^ Килгарриф и Грефенстетт 2003, стр. 333–347.
  51. ^ Литковский 2005, стр. 753–761.
  52. ^ Агирре и Стивенсон 2007, стр. 217–251.
  53. ^ Маньини и Кавалья 2000, стр. 1413–1418.
  54. ^ Люсия Специа, Мария дас Гракас Вольпе Нуньес, Габриэла Кастелу Бранку Рибейру и Марк Стивенсон. Многоязычный и одноязычный WSD. Архивировано 10 апреля 2012 г. в Wayback Machine . На семинаре EACL-2006 «Осмысление смысла: объединение психолингвистики и компьютерной лингвистики», страницы 33–40, Тренто, Италия, апрель 2006 г.
  55. ^ Эльс Лефевер и Вероник Хост. Задача 3 SemEval-2010: межъязыковое устранение неоднозначности смысла слов. Архивировано 16 июня 2010 г. в Wayback Machine . Материалы семинара по семантическим оценкам: последние достижения и будущие направления. 04-04 июня 2009 г., Боулдер, Колорадо.
  56. ^ Р. Навильи, Д.А. Юргенс, Д. Ваннелла. SemEval-2013. Задача 12: Устранение многоязычной смысловой неоднозначности. Архивировано 8 августа 2014 г. в Wayback Machine . Учеб. седьмого международного семинара по семантической оценке (SemEval) на Второй совместной конференции по лексической и вычислительной семантике (*SEM 2013), Атланта, США, 14–15 июня 2013 г., стр. 222–231.
  57. ^ Люсия Специа, Мария дас Гракас Вольпе Нуньес, Габриэла Кастелу Бранку Рибейру и Марк Стивенсон. Многоязычный и одноязычный WSD. Архивировано 10 апреля 2012 г. в Wayback Machine . На семинаре EACL-2006 «Осмысление смысла: объединение психолингвистики и компьютерной лингвистики», страницы 33–40, Тренто, Италия, апрель 2006 г.
  58. ^ Энеко Агирре и Айтор Сороа. Задача 02 Semeval-2007: оценка систем индукции и распознавания смысла слов. Архивировано 28 февраля 2013 г. в Wayback Machine . Материалы 4-го Международного семинара по семантическим оценкам, стр. 7–12, 23–24 июня 2007 г., Прага, Чехия.
  59. ^ "Бабельфи". Бабельфи. Архивировано из оригинала 8 августа 2014 г. Проверено 22 марта 2018 г.
  60. ^ "API BabelNet" . Babelnet.org. Архивировано из оригинала 22 марта 2018 г. Проверено 22 марта 2018 г.
  61. ^ "WordNet::SenseRelate" . Senserelate.sourceforge.net. Архивировано из оригинала 21 марта 2018 г. Проверено 22 марта 2018 г.
  62. ^ "УКБ: База графов WSD" . Ixa2.si.ehu.es. Архивировано из оригинала 12 марта 2018 г. Проверено 22 марта 2018 г.
  63. ^ «База лексических знаний (LKB)» . Мойн.delph-in.net. 05.02.2018. Архивировано из оригинала 9 марта 2018 г. Проверено 22 марта 2018 г.
  64. ^ альвации. "pyWSD". Гитхаб.com. Архивировано из оригинала 11 июня 2018 г. Проверено 22 марта 2018 г.

Цитируемые работы

дальнейшее чтение

Внешние ссылки