Разрешение словесно-смысловой неоднозначности

Разрешение неоднозначности словесного смысла — это процесс определения того, какой смысл слова подразумевается впредложении или другом сегменте контекста . Ви познании человеческого языка это обычно происходит подсознательно.

Учитывая, что естественный язык требует отражения неврологической реальности, сформированной возможностями нейронных сетей мозга , перед компьютерной наукой в течение длительного времени стояла задача разработки возможностей компьютеров для обработки естественного языка и машинного обучения .

Было исследовано множество методов, включая методы на основе словарей, которые используют знания, закодированные в лексических ресурсах, контролируемые методы машинного обучения , в которых классификатор обучается для каждого отдельного слова на корпусе примеров, вручную аннотированных по смыслу, и полностью неконтролируемые методы, которые кластеризуют вхождения слов, тем самым вызывая смыслы слов. Среди них контролируемые подходы к обучению были наиболее успешными алгоритмами на сегодняшний день.

Точность текущих алгоритмов трудно оценить без множества оговорок. В английском языке точность на грубозернистом ( омографическом ) уровне обычно превышает 90% (по состоянию на 2009 год), а некоторые методы на отдельных омографах достигают более 96%. На более мелкозернистых смысловых различиях наивысшие точности от 59,1% до 69,0% были зарегистрированы в оценочных упражнениях (SemEval-2007, Senseval-2), где базовая точность простейшего возможного алгоритма всегда выбирать наиболее частый смысл составляла 51,4% и 57% соответственно.

Варианты

Для устранения неоднозначности требуются два строгих входа: словарь для указания смыслов, которые должны быть устранены, и корпус языковых данных, которые должны быть устранены (в некоторых методах также требуется учебный корпус языковых примеров). Задача WSD имеет два варианта: «лексическая выборка» (устранение неоднозначности вхождений небольшой выборки целевых слов, которые были предварительно выбраны) и задача «все слова» (устранение неоднозначности всех слов в текущем тексте). Задача «все слова» обычно считается более реалистичной формой оценки, но создание корпуса обходится дороже, поскольку людям-аннотаторам приходится читать определения для каждого слова в последовательности каждый раз, когда им нужно вынести суждение о тегировании, а не один раз для блока примеров для одного и того же целевого слова.

История

WSD была впервые сформулирована как отдельная вычислительная задача в ранние дни машинного перевода в 1940-х годах, что сделало ее одной из старейших проблем в компьютерной лингвистике. Уоррен Уивер впервые представил проблему в вычислительном контексте в своем меморандуме о переводе 1949 года. ^[1] Позднее Бар-Хиллель (1960) утверждал ^[2] , что WSD не может быть решена «электронным компьютером» из-за необходимости в целом моделировать все мировые знания.

В 1970-х годах WSD была подзадачей систем семантической интерпретации, разработанных в области искусственного интеллекта, начиная с семантики предпочтений Уилкса . Однако, поскольку системы WSD в то время были в значительной степени основаны на правилах и кодировались вручную, они были склонны к узкому месту в получении знаний.

К 1980-м годам стали доступны масштабные лексические ресурсы, такие как Оксфордский словарь современного английского языка для продвинутых учащихся (OALD): ручное кодирование было заменено знаниями, автоматически извлекаемыми из этих ресурсов, но разрешение неоднозначности по-прежнему основывалось на знаниях или словаре.

В 1990-х годах статистическая революция способствовала развитию компьютерной лингвистики, и WSD стала парадигмальной проблемой, к которой можно было применять методы контролируемого машинного обучения.

В 2000-х годах контролируемые методы достигли плато в точности, и поэтому внимание переключилось на более грубые ощущения, адаптацию домена , полуконтролируемые и неконтролируемые системы на основе корпусов, комбинации различных методов и возврат систем, основанных на знаниях, через методы, основанные на графах. Тем не менее, контролируемые системы продолжают работать лучше всего.

Трудности

Различия между словарями

Одной из проблем с разрешением неоднозначности смысла слова является решение того, что такое смыслы, поскольку разные словари и тезаурусы будут предоставлять разные разделения слов на смыслы. Некоторые исследователи предлагают выбрать конкретный словарь и использовать его набор смыслов для решения этой проблемы. Однако в целом результаты исследований с использованием широких различий в смыслах были намного лучше, чем с использованием узких. ^[3]^[4] Большинство исследователей продолжают работать над мелкозернистым WSD.

Большинство исследований в области WSD выполняется с использованием WordNet в качестве справочного инвентаря смыслов для английского языка. WordNet — это вычислительный лексикон , который кодирует понятия как наборы синонимов (например, понятие автомобиля кодируется как {car, auto, automotive, machine, motorcar}). Другие ресурсы, используемые для устранения неоднозначности, включают Roget's Thesaurus ^[5] и Wikipedia . ^[6] Совсем недавно BabelNet , многоязычный энциклопедический словарь, использовался для многоязычного WSD. ^[7]

Тегирование частей речи

В любом реальном тесте маркировка частей речи и маркировка смысла оказались очень тесно связанными, причем каждая из них потенциально налагает ограничения на другую. Вопрос о том, следует ли держать эти задачи вместе или разделить, до сих пор не решен единогласно, но в последнее время ученые склоняются к тому, чтобы тестировать эти вещи по отдельности (например, в соревнованиях Senseval/ SemEval части речи предоставляются в качестве входных данных для текста, чтобы устранить неоднозначность).

И WSD, и разметка частей речи включают устранение неоднозначности или разметку со словами. Однако алгоритмы, используемые для одного, как правило, не работают хорошо для другого, в основном потому, что часть речи слова в первую очередь определяется непосредственно соседними одним-тремя словами, тогда как смысл слова может определяться словами, расположенными дальше. Уровень успешности алгоритмов разметки частей речи в настоящее время намного выше, чем для WSD, и на современном уровне составляет около 96% ^[8] точности или лучше, по сравнению с менее чем 75% ^{[ требуется цитата ]} точности при устранении неоднозначности смысла слова с контролируемым обучением . Эти цифры типичны для английского языка и могут сильно отличаться от цифр для других языков.

Различия между судьями

Другая проблема — это дисперсия между судьями . Системы WSD обычно тестируются путем сравнения их результатов по заданию с результатами человека. Однако, хотя относительно легко назначать части речи тексту, обучение людей маркировать смыслы оказалось гораздо сложнее. ^[9] Хотя пользователи могут запомнить все возможные части речи, которые может иметь слово, для людей часто невозможно запомнить все смыслы, которые может иметь слово. Более того, люди не соглашаются с поставленной задачей — дать список смыслов и предложений, и люди не всегда соглашаются с тем, какое слово принадлежит к какому смыслу. ^[10]

Поскольку человеческая производительность служит стандартом, она является верхней границей для производительности компьютера. Однако человеческая производительность намного лучше на грубозернистых, чем на тонкозернистых различиях, поэтому снова-таки исследования грубозернистых различий ^[11]^[12] были подвергнуты проверке в недавних упражнениях по оценке WSD. ^[3]^[4]

Инвентарь чувств и зависимость алгоритмов от задач

Независимый от задачи инвентарь смысла не является последовательной концепцией: ^[13] каждая задача требует своего собственного разделения значения слова на смыслы, соответствующие задаче. Кроме того, для разных приложений могут потребоваться совершенно разные алгоритмы. В машинном переводе проблема принимает форму выбора целевого слова. «Смыслы» — это слова на целевом языке, которые часто соответствуют значительным различиям в значении в исходном языке («bank» можно перевести как французское banque — то есть «финансовый банк» или rive — то есть «берег реки»). В информационном поиске инвентарь смысла не обязательно требуется, потому что достаточно знать, что слово используется в том же значении в запросе и извлеченном документе; какое это значение, неважно.

Дискретность чувств

Наконец, само понятие « смысл слова » является скользким и спорным. Большинство людей могут согласиться с различиями на уровне грубозернистых омографов (например, ручка как пишущий инструмент или корпус), но спуститься на один уровень ниже до мелкозернистой полисемии , и возникают разногласия. Например, в Senseval-2, который использовал мелкозернистые смысловые различия, люди-аннотаторы согласились только в 85% случаев употребления слов. ^[14] Значение слова в принципе бесконечно изменчиво и чувствительно к контексту. Оно не делится легко на отдельные или дискретные подзначения. ^[15] Лексикографы часто обнаруживают в корпусах свободные и перекрывающиеся значения слов, а также стандартные или общепринятые значения, расширенные, модулированные и используемые ошеломляющим разнообразием способов. Искусство лексикографии заключается в обобщении корпуса до определений, которые вызывают и объясняют полный спектр значений слова, создавая впечатление, что слова ведут себя хорошо семантически. Однако совершенно не ясно, применимы ли эти же смысловые различия в вычислительных приложениях , поскольку решения лексикографов обычно обусловлены другими соображениями. В 2009 году была предложена задача, названная лексической заменой , в качестве возможного решения проблемы дискретности смысла. ^[16] Задача состоит в предоставлении замены для слова в контексте, которая сохраняет значение исходного слова (потенциально замены могут быть выбраны из полного лексикона целевого языка, таким образом преодолевая дискретность).

Подходы и методы

Существует два основных подхода к WSD — глубокий и поверхностный.

Глубокие подходы предполагают доступ к всеобъемлющему массиву мировых знаний . Эти подходы, как правило, не считаются очень успешными на практике, в основном потому, что такой массив знаний не существует в формате, пригодном для чтения компьютером, за пределами очень ограниченных областей. ^[17] Кроме того, из-за давней традиции в компьютерной лингвистике , попытки таких подходов с точки зрения кодированных знаний и в некоторых случаях может быть трудно отличить знания, связанные с лингвистическими или мировыми знаниями. Первая попытка была предпринята Маргарет Мастерман и ее коллегами в Кембриджском исследовательском подразделении языка в Англии в 1950-х годах. Эта попытка использовала в качестве данных версию тезауруса Роже на перфокартах и его пронумерованные «головы» в качестве индикатора тем и искала повторения в тексте, используя алгоритм пересечения множеств. Она была не очень успешной, ^[18] но имела прочные связи с более поздними работами, особенно с оптимизацией машинного обучения Яровски метода тезауруса в 1990-х годах.

Поверхностные подходы не пытаются понять текст, а вместо этого рассматривают окружающие слова. Эти правила могут быть автоматически выведены компьютером с использованием учебного корпуса слов, помеченных их смыслами. Этот подход, хотя теоретически не такой мощный, как глубокие подходы, дает превосходные результаты на практике из-за ограниченных знаний компьютера о мире.

Существует четыре традиционных подхода к WSD:

Методы, основанные на словарях и знаниях: они в первую очередь опираются на словари, тезаурусы и лексические базы знаний , без использования каких-либо корпусных доказательств.
Полуконтролируемые или минимально контролируемые методы : они используют вторичный источник знаний, такой как небольшой аннотированный корпус в качестве исходных данных в процессе самонастройки или выровненный по словам двуязычный корпус.
Контролируемые методы : они используют для обучения тексты с аннотированными смыслами.
Неконтролируемые методы : они (почти) полностью избегают внешней информации и работают напрямую с сырыми неаннотированными корпусами. Эти методы также известны под названием различения смысла слов .

Почти все эти подходы работают, определяя окно из n слов контента вокруг каждого слова, которое должно быть устранено неоднозначностью в корпусе, и статистически анализируя эти n окружающих слов. Два поверхностных подхода, используемых для обучения и последующего устранения неоднозначности, — это наивные байесовские классификаторы и деревья решений . В недавних исследованиях методы на основе ядра , такие как машины опорных векторов, показали превосходную производительность в контролируемом обучении . Подходы на основе графов также привлекли большое внимание исследовательского сообщества и в настоящее время достигают производительности, близкой к современному уровню.

Методы, основанные на словаре и знаниях

Алгоритм Леска ^[19] является основополагающим методом, основанным на словаре. Он основан на гипотезе, что слова, используемые вместе в тексте, связаны друг с другом и что эта связь может наблюдаться в определениях слов и их смыслах. Два (или более) слова устраняются путем нахождения пары словарных смыслов с наибольшим совпадением слов в их словарных определениях. Например, при устранении неоднозначности слов в «шишка» определения соответствующих смыслов включают слова вечнозеленый и дерево (по крайней мере в одном словаре). Похожий подход ^[20] ищет кратчайший путь между двумя словами: второе слово итеративно ищется среди определений каждого семантического варианта первого слова, затем среди определений каждого семантического варианта каждого слова в предыдущих определениях и так далее. Наконец, первое слово устраняется путем выбора семантического варианта, который минимизирует расстояние от первого до второго слова.

Альтернативой использованию определений является рассмотрение общей связи между словами и смыслами и вычисление семантического сходства каждой пары смыслов слов на основе заданной лексической базы знаний, такой как WordNet . Графические методы, напоминающие исследования распространения активации ранних дней исследований ИИ, применялись с некоторым успехом. Было показано, что более сложные графические подходы работают почти так же хорошо, как контролируемые методы ^[21] или даже превосходят их в определенных доменах. ^[3]^[22] Недавно было сообщено, что простые меры связности графов , такие как степень , выполняют самые современные WSD при наличии достаточно богатой лексической базы знаний. ^[23] Кроме того, было показано, что автоматическая передача знаний в форме семантических отношений из Википедии в WordNet повышает эффективность простых методов, основанных на знаниях, позволяя им конкурировать с лучшими контролируемыми системами и даже превосходить их в условиях, специфичных для домена. ^[24]

Использование селективных предпочтений (или селективных ограничений) также полезно, например, зная, что человек обычно готовит еду, можно устранить неоднозначность слова «бас» в предложении «Я готовлю басы» (т. е. это не музыкальный инструмент).

Методы под наблюдением

Контролируемые методы основаны на предположении, что контекст может предоставить достаточно доказательств сам по себе, чтобы устранить неоднозначность слов (следовательно, здравый смысл и рассуждения считаются ненужными). Вероятно, каждый существующий алгоритм машинного обучения был применен к WSD, включая связанные с ним методы, такие как выбор признаков , оптимизация параметров и ансамблевое обучение . Было показано, что опорные векторные машины и обучение на основе памяти являются наиболее успешными подходами на сегодняшний день, вероятно, потому, что они могут справиться с высокой размерностью пространства признаков. Однако эти контролируемые методы подвержены новому узкому месту в получении знаний, поскольку они полагаются на значительные объемы вручную размеченных смысловых корпусов для обучения, которые трудоемки и дороги в создании.

Полуконтролируемые методы

Из-за отсутствия обучающих данных многие алгоритмы разрешения неоднозначности смысла слов используют полуконтролируемое обучение , которое допускает как маркированные, так и немаркированные данные. Алгоритм Яровского был ранним примером такого алгоритма. ^[25] Он использует свойства человеческих языков «Один смысл на словосочетание» и «Один смысл на дискурс» для разрешения неоднозначности смысла слов. Согласно наблюдениям, слова, как правило, демонстрируют только один смысл в большинстве заданных дискурсов и в заданных словосочетаниях. ^[26]

Подход бутстрэппинга начинается с небольшого количества начальных данных для каждого слова: либо вручную помеченные обучающие примеры , либо небольшое количество правил безошибочного принятия решений (например, «играть» в контексте «бас» почти всегда указывает на музыкальный инструмент). Начальные данные используются для обучения начального классификатора с использованием любого контролируемого метода. Затем этот классификатор используется на не помеченной части корпуса для извлечения большего обучающего набора, в который включены только самые надежные классификации. Процесс повторяется, каждый новый классификатор обучается на последовательно большем обучающем корпусе, пока не будет использован весь корпус или пока не будет достигнуто заданное максимальное количество итераций.

Другие полуконтролируемые методы используют большие объемы немаркированных корпусов для предоставления информации о совместном появлении , которая дополняет маркированные корпуса. Эти методы имеют потенциал для помощи в адаптации контролируемых моделей к различным доменам.

Кроме того, неоднозначное слово в одном языке часто переводится разными словами во втором языке в зависимости от смысла слова. Выровненные по словам двуязычные корпуса использовались для вывода кросс-лингвистических смысловых различий, своего рода полуконтролируемая система. ^{[ необходима цитата ]}

Неконтролируемые методы

Неконтролируемое обучение является самой большой проблемой для исследователей WSD. Основное предположение заключается в том, что схожие смыслы встречаются в схожих контекстах, и, таким образом, смыслы могут быть вызваны из текста путем кластеризации вхождений слов с использованием некоторой меры сходства контекста ^[27] , задача, называемая индукцией или дискриминацией смысла слова . Затем новые вхождения слова могут быть классифицированы в ближайшие индуцированные кластеры/смыслы. Производительность была ниже, чем для других методов, описанных выше, но сравнения затруднены, поскольку индуцированные смыслы должны быть сопоставлены с известным словарем смыслов слова. Если сопоставление с набором смыслов словаря нежелательно, могут быть выполнены оценки на основе кластеров (включая меры энтропии и чистоты). В качестве альтернативы методы индукции смысла слова можно протестировать и сравнить в приложении. Например, было показано, что индукция смысла слова улучшает кластеризацию результатов веб-поиска, повышая качество кластеров результатов и степень диверсификации списков результатов. ^[28]^[29] Есть надежда, что неконтролируемое обучение позволит преодолеть узкие места в получении знаний , поскольку оно не зависит от ручного труда.

Представление слов с учетом их контекста с помощью плотных векторов фиксированного размера ( внедрение слов ) стало одним из самых фундаментальных блоков в нескольких системах обработки естественного языка. ^[30]^[31]^[32] Несмотря на то, что большинство традиционных методов встраивания слов объединяют слова с несколькими значениями в одно векторное представление, их все равно можно использовать для улучшения WSD. ^[33] Простой подход к использованию предварительно вычисленных встраиваний слов для представления смыслов слов заключается в вычислении центроидов смысловых кластеров. ^[34]^[35] В дополнение к методам встраивания слов лексические базы данных (например, WordNet , ConceptNet , BabelNet ) также могут помогать неконтролируемым системам в отображении слов и их смыслов в виде словарей. Некоторые методы, которые объединяют лексические базы данных и встраивания слов, представлены в AutoExtend ^[36]^[37] и Most Suitable Sense Annotation (MSSA). ^[38] В AutoExtend ^[37] они представляют метод, который разделяет входное представление объекта на его свойства, такие как слова и их смыслы слов. AutoExtend использует структуру графа для отображения слов (например, текста) и не-слов (например, наборов синтаксиса в WordNet ) как узлов, а отношения между узлами как ребер. Отношения (ребра) в AutoExtend могут либо выражать добавление, либо сходство между его узлами. Первое отражает интуицию, лежащую в основе исчисления смещения, ^[30], тогда как последнее определяет сходство между двумя узлами. В MSSA ^[38] неконтролируемая система устранения неоднозначности использует сходство между смыслами слов в фиксированном окне контекста для выбора наиболее подходящего смысла слова с использованием предварительно обученной модели встраивания слов и WordNet . Для каждого контекстного окна MSSA вычисляет центроид каждого определения смысла слова, усредняя векторы слов в глоссах WordNet (т. е. краткий определяющий глосс и один или несколько примеров использования) с использованием предварительно обученной модели встраивания слов. Эти центроиды впоследствии используются для выбора смысла слова с наивысшим сходством целевого слова с его непосредственно соседними соседями (т. е. предшествующими и последующими словами). После того, как все слова аннотированы и устранены неоднозначности, их можно использовать в качестве обучающего корпуса в любой стандартной технике встраивания слов. В своей улучшенной версии MSSA может использовать встраивания смысла слова для повторения своего процесса устранения неоднозначности итеративно.

Другие подходы

Другие подходы могут отличаться по своим методам:

Разрешение неоднозначности на основе домена; ^[39]^[40]
Определение доминирующих смыслов слов; ^[41]^[42]^[43]
WSD с использованием межъязыковых доказательств. ^[44]^[45]
Решение WSD в независимом от языка NLU Джона Болла , объединяющее теорию Патома и RRG (ролевая и референтная грамматика)
Вывод типа в грамматиках, основанных на ограничениях ^[46]

Другие языки

Хинди : Нехватка лексических ресурсов в хинди затруднила работу контролируемых моделей WSD, в то время как неконтролируемые модели страдают из-за обширной морфологии. Возможным решением этой проблемы является разработка модели WSD с помощью параллельных корпусов .^[47]^[48] Создание Hindi WordNet проложило путь для нескольких контролируемых методов, которые, как было доказано, обеспечивают более высокую точность в устранении неоднозначности существительных.^[49]

Местные препятствия и резюме

Узкое место в приобретении знаний, возможно, является основным препятствием для решения проблемы WSD. Неконтролируемые методы полагаются на знания о значениях слов, которые лишь скудно сформулированы в словарях и лексических базах данных. Контролируемые методы в решающей степени зависят от наличия вручную аннотированных примеров для каждого значения слова, требование, которое до сих пор ^{[ когда? ]} может быть выполнено только для нескольких слов в целях тестирования, как это делается в упражнениях Senseval .

Одной из самых многообещающих тенденций в исследовании WSD является использование самого большого корпуса , когда-либо доступного, Всемирной паутины , для автоматического получения лексической информации. ^[50] WSD традиционно понималась как промежуточная технология языковой инженерии, которая могла бы улучшить такие приложения, как поиск информации (IR). В этом случае, однако, верно и обратное: поисковые системы веб-сайтов реализуют простые и надежные методы IR, которые могут успешно добывать в Интернете информацию для использования в WSD. Историческая нехватка обучающих данных спровоцировала появление некоторых новых алгоритмов и методов, как описано в Автоматическое получение чувственно-тегированных корпусов .

Внешние источники знаний

Знание является фундаментальным компонентом WSD. Источники знаний предоставляют данные, которые необходимы для связывания смыслов со словами. Они могут варьироваться от корпусов текстов, как немаркированных, так и аннотированных смыслами слов, до машиночитаемых словарей, тезаурусов, глоссариев, онтологий и т. д. Их можно ^[51]^[52] классифицировать следующим образом:

Структурировано:

Неструктурированный:

Ресурсы для совместного размещения
Другие ресурсы (например , списки частотности слов , списки стоп-слов , доменные метки ^[53] и т. д.)
Корпуса : сырые корпуса и смысловые аннотированные корпуса

Оценка

Сравнение и оценка различных систем WSD чрезвычайно сложны из-за различных наборов тестов, инвентаризаций чувств и принятых ресурсов знаний. До организации специальных оценочных кампаний большинство систем оценивались на внутренних, часто небольших, наборах данных . Чтобы протестировать свой алгоритм, разработчикам следует потратить свое время на аннотирование всех вхождений слов. И сравнение методов даже на одном корпусе недопустимо, если есть различные инвентаризации чувств.

Для определения общих наборов данных и процедур оценки были организованы кампании по публичной оценке. Senseval (теперь переименован в SemEval ) — это международный конкурс по разрешению неоднозначности смысла слов, который проводится каждые три года с 1998 года: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 ^{[узурпированный]} (2004) и его преемник SemEval (2007). Целью конкурса является организация различных лекций, подготовка и ручное аннотирование корпуса для тестирования систем, проведение сравнительной оценки систем WSD в нескольких типах задач, включая WSD со всеми словами и лексическими образцами для разных языков, а в последнее время и новые задачи, такие как маркировка семантической роли , WSD глосса, лексическая замена и т. д. Системы, представленные для оценки на этих конкурсах, обычно интегрируют различные методы и часто объединяют контролируемые и основанные на знаниях методы (особенно для того, чтобы избежать плохой работы при отсутствии обучающих примеров).

В последние годы ^2007-2012 выбор оценочных заданий WSD увеличился, и критерий оценки WSD радикально изменился в зависимости от варианта оценочного задания WSD. Ниже перечислены различные задания WSD:

Выбор дизайна задачи

По мере развития технологий задачи разрешения неоднозначности слов (WSD) расширяются в различных направлениях исследований и для большего количества языков:

Классические одноязычные задачи оценки WSD используют WordNet в качестве инвентаря смыслов и в значительной степени основаны на контролируемой / полуконтролируемой классификации с корпусами, аннотированными вручную смыслами: ^[54]
- В классическом английском языке WSD в качестве инструмента распознавания инвентаря используется Princeton WordNet , а первичные классификационные входные данные обычно основаны на корпусе SemCor.
- Классический WSD для других языков использует их соответствующие WordNet как смысловые инвентари и смысловые аннотированные корпуса, помеченные на их соответствующих языках. Часто исследователи также обращаются к корпусу SemCor и выравнивают бинарные тексты с английским в качестве исходного языка
Кросс-лингвистическая задача оценки WSD также фокусируется на WSD на 2 или более языках одновременно. В отличие от многоязычных задач WSD, вместо предоставления вручную аннотированных примеров для каждого смысла многозначного существительного, смысловой инвентарь строится на основе параллельных корпусов, например, корпуса Europarl. ^[55]
Многоязычные задачи оценки WSD были сосредоточены на WSD на 2 или более языках одновременно, используя их соответствующие WordNets в качестве своих инвентарей смыслов или BabelNet в качестве многоязычного инвентаря смыслов. ^[56] Он развился из задач оценки перевода WSD, которые имели место в Senseval-2. Популярный подход заключается в выполнении одноязычного WSD, а затем сопоставлении смыслов исходного языка с соответствующими переводами целевых слов. ^[57]
Задача индукции и устранения неоднозначности слов представляет собой комбинированную оценку задачи, в которой инвентарь смыслов сначала индуцируется из фиксированного обучающего набора данных, состоящего из многозначных слов и предложений, в которых они встречаются, а затем WSD выполняется на другом тестовом наборе данных . ^[58]

Программное обеспечение

Babelfy, ^[59] унифицированная современная система для многоязычного разрешения неоднозначности смысла слов и связывания сущностей
BabelNet API, ^[60] Java API для многоязычного разрешения неоднозначности слов на основе знаний в 6 различных языках с использованием семантической сети BabelNet
WordNet::SenseRelate, ^[61] проект, включающий бесплатные системы с открытым исходным кодом для устранения неоднозначности смысла слов и лексических образцов.
UKB: Graph Base WSD, ^[62] набор программ для выполнения графического разрешения смысловой неоднозначности слов и лексического сходства/связанности с использованием уже существующей лексической базы знаний ^[63]
pyWSD, ^[64] реализации технологий устранения неоднозначности слов (WSD) на языке python

Смотрите также

На Викискладе есть медиафайлы по теме «Разрешение неоднозначности слов».

Ссылки

↑ Уивер 1949.
↑ Бар-Хиллель 1964, стр. 174–179.
^ abc Navigli, Litkowski & Hargraves 2007, стр. 30–35.
^ Аб Прадхан и др. 2007, стр. 87–92.
^ Яровски 1992, стр. 454–460.
^ Михалча 2007.
^ А. Моро; А. Раганато; Р. Навильи. Entity Linking meets Word Sense Disambiguation: a Unified Approach. Архивировано 08.08.2014 в Wayback Machine . Труды Ассоциации компьютерной лингвистики (TACL). 2. стр. 231–244. 2014.
^ Мартинес, Энджел Р. (январь 2012 г.). «Разметка частей речи: разметка частей речи». Wiley Interdisciplinary Reviews: Computational Statistics . 4 (1): 107–113. doi :10.1002/wics.195. S2CID 62672734. Архивировано из оригинала 15.07.2023 . Получено 01.04.2021 .
^ Феллбаум 1997.
↑ Снайдер и Палмер 2004, стр. 41–43.
^ Навильи 2006, стр. 105–112.
^ Сноу и др. 2007, стр. 1005–1014.
^ Палмер, Бабко-Малайя и Данг 2004, стр. 49–56.
^ Эдмондс 2000.
^ Килгарриф 1997, стр. 91–113.
^ Маккарти и Навильи, 2009, стр. 139–159.
^ Ленат и Гуха 1989.
^ Уилкс, Слэйтор и Гатри 1996.
↑ Леск 1986, стр. 24–26.
^ Диамантини, К.; Мирколи, А.; Потена, Д.; Сторти, Э. (2015-06-01). «Семантическая неоднозначность в системе обнаружения социальной информации». Международная конференция по технологиям и системам совместной работы (CTS) 2015 г. стр. 326–333. doi :10.1109/CTS.2015.7210442. ISBN 978-1-4673-7647-1. S2CID 13260353.
^ Навильи и Веларди 2005, стр. 1063–1074.
^ Агирре, Лопес де Лакаль и Сороа 2009, стр. 1501–1506.
^ Навильи и Лапата 2010, стр. 678–692.
^ Понцетто и Навильи 2010, стр. 1522–1531.
^ Яровски 1995, стр. 189–196.
^ Митков, Руслан (2004). "13.5.3 Два утверждения о чувствах". Оксфордский справочник по компьютерной лингвистике . OUP. стр. 257. ISBN 978-0-19-927634-9. Архивировано из оригинала 2022-02-22 . Получено 2022-02-22 .
^ Шютце 1998, стр. 97–123.
^ Навильи и Крисафулли 2010.
^ Ди Марко и Навильи 2013.
^ ab Миколов, Томас; Чен, Кай; Коррадо, Грег; Дин, Джеффри (16.01.2013). "Эффективная оценка представлений слов в векторном пространстве". arXiv : 1301.3781 [cs.CL].
^ Пеннингтон, Джеффри; Сочер, Ричард; Мэннинг, Кристофер (2014). «Перчатка: глобальные векторы для представления слов». Труды конференции 2014 года по эмпирическим методам обработки естественного языка (EMNLP) . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 1532–1543. doi : 10.3115/v1/d14-1162 . S2CID 1957433.
^ Bojanowski, Piotr; Grave, Edouard; Joulin, Armand; Mikolov, Tomas (декабрь 2017 г.). «Обогащение векторов слов с помощью информации о подсловах». Transactions of the Association for Computational Linguistics . 5 : 135–146. arXiv : 1607.04606 . doi : 10.1162/tacl_a_00051 . ISSN 2307-387X.
^ Якобаччи, Игнасио; Пилехвар, Мохаммад Тахер; Навильи, Роберто (2016). «Внедрения для устранения неоднозначности смысла слов: оценочное исследование». Труды 54-го ежегодного собрания Ассоциации компьютерной лингвистики (том 1: длинные статьи) . Берлин, Германия: Ассоциация компьютерной лингвистики: 897–907. doi : 10.18653/v1/P16-1085 . hdl : 11573/936571 . Архивировано из оригинала 28.10.2019 . Получено 28.10.2019 .
^ Бхингардив, Судха; Сингх, Дхирендра; В, Рудрамурти; Редкар, Ханумант; Бхаттачарья, Пушпак (2015). «Неконтролируемое обнаружение наиболее частых смыслов с использованием вложений слов». Труды конференции 2015 года Североамериканского отделения Ассоциации компьютерной лингвистики: Технологии человеческого языка . Денвер, Колорадо: Ассоциация компьютерной лингвистики. стр. 1238–1243. doi :10.3115/v1/N15-1132. S2CID 10778029. Архивировано из оригинала 21.01.2023 . Получено 21.01.2023 .
^ Бутнару, Андрей; Ионеску, Раду Тудор; Христя, Флорентина (2017). «ShotgunWSD: неконтролируемый алгоритм для глобальной неоднозначности смысла слов, вдохновленный секвенированием ДНК». Труды 15-й конференции Европейского отделения Ассоциации компьютерной лингвистики : 916–926. arXiv : 1707.08084 . Архивировано из оригинала 21.01.2023 . Получено 21.01.2023 .
^ Rothe, Sascha; Schütze, Hinrich (2015). "AutoExtend: Extending Word Embeddings to Embeddings for Synsets and Lexemes". Том 1: Длинные статьи . Ассоциация компьютерной лингвистики и Международная объединенная конференция по обработке естественного языка. Труды 53-го ежегодного собрания Ассоциации компьютерной лингвистики и 7-й Международной объединенной конференции по обработке естественного языка . Страудсбург, Пенсильвания, США: Ассоциация компьютерной лингвистики. стр. 1793–1803. arXiv : 1507.01127 . Bibcode :2015arXiv150701127R. doi :10.3115/v1/p15-1173. S2CID 15687295.
^ ab Rothe, Sascha; Schütze, Hinrich (сентябрь 2017 г.). «AutoExtend: объединение внедрений слов с семантическими ресурсами». Computational Linguistics . 43 (3): 593–617. doi : 10.1162/coli_a_00294 . ISSN 0891-2017.
^ ab Ruas, Terry; Grosky, William; Aizawa, Akiko (декабрь 2019 г.). «Многосмысловые вложения посредством процесса устранения неоднозначности смысла слова». Expert Systems with Applications . 136 : 288–303. arXiv : 2101.08700 . doi : 10.1016/j.eswa.2019.06.026. hdl : 2027.42/145475 . S2CID 52225306.
^ Глиоццо, Маньини и Страппарава 2004, стр. 380–387.
^ Буителаар и др. 2006, стр. 275–298.
^ Маккарти и др. 2007, стр. 553–590.
↑ Мохаммад и Херст 2006, стр. 121–128.
^ Лапата и Келлер 2007, стр. 348–355.
^ Иде, Эрьявец и Туфис 2002, стр. 54–60.
^ Чан и Нг 2005, стр. 1037–1042.
^ Шибер, Стюарт М. (1992). Формализмы грамматики на основе ограничений: синтаксический анализ и вывод типов для естественных и компьютерных языков. Массачусетс: MIT Press. ISBN 978-0-262-19324-5. Архивировано из оригинала 2023-07-15 . Получено 2018-12-23 .
^ Бхаттачарья, Индраджит, Лиз Гетур и Йошуа Бенджио. Неконтролируемое разрешение смысловой неоднозначности с использованием двуязычных вероятностных моделей Архивировано 09.01.2016 в Wayback Machine . Труды 42-го ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2004.
^ Диаб, Мона и Филип Резник. Неконтролируемый метод разметки смысла слов с использованием параллельных корпусов. Архивировано 04.03.2016 в Wayback Machine . Труды 40-го ежегодного собрания Ассоциации компьютерной лингвистики. Ассоциация компьютерной лингвистики, 2002.
^ Маниш Синха, Махеш Кумар, Прабхакар Панде, Лакшми Кашьяп и Пушпак Бхаттачарья. Устранение неоднозначности смысла слов в хинди. Архивировано 04.03.2016 в Wayback Machine . На Международном симпозиуме по машинному переводу, обработке естественного языка и системам поддержки перевода, Дели, Индия, 2004.
^ Килгарриф и Грефенстетте 2003, стр. 333–347.
^ Литковский 2005, стр. 753–761.
^ Агирре и Стивенсон 2007, стр. 217–251.
^ Маньини и Кавалья 2000, стр. 1413–1418.
^ Люсия Спесия, Мария дас Гракас Вольпе Нунес, Габриэла Каштелу Бранку Рибейру и Марк Стивенсон. Многоязычный против одноязычного WSD Архивировано 10.04.2012 в Wayback Machine . В EACL-2006 Workshop on Making Sense of Sense: Bringing Psycholinguistics and Computational Linguistics Together, страницы 33–40, Тренто, Италия, апрель 2006.
^ Элс Лефевер и Вероник Хосте. Задача 3 SemEval-2010: разрешение неоднозначности межъязыкового смысла слов. Архивировано 16.06.2010 в Wayback Machine . Труды семинара по семантическим оценкам: последние достижения и будущие направления. 4-4 июня 2009 г., Боулдер, Колорадо.
^ R. Navigli, DA Jurgens, D. Vannella. SemEval-2013 Задача 12: Разрешение неоднозначности многоязычных значений слов Архивировано 08.08.2014 в Wayback Machine . Труды седьмого Международного семинара по семантической оценке (SemEval) на Второй совместной конференции по лексической и вычислительной семантике (*SEM 2013), Атланта, США, 14–15 июня 2013 г., стр. 222–231.
^ Люсия Спесия, Мария дас Гракас Вольпе Нунес, Габриэла Каштелу Бранку Рибейру и Марк Стивенсон. Многоязычный против одноязычного WSD Архивировано 10.04.2012 в Wayback Machine . В EACL-2006 Workshop on Making Sense of Sense: Bringing Psycholinguistics and Computational Linguistics Together, страницы 33–40, Тренто, Италия, апрель 2006.
^ Энеко Агирре и Айтор Сороа. Semeval-2007, задача 02: оценка систем индукции и различения смысла слов Архивировано 28.02.2013 в Wayback Machine . Труды 4-го Международного семинара по семантическим оценкам, стр. 7–12, 23–24 июня 2007 г., Прага, Чешская Республика.
^ "Babelfy". Babelfy. Архивировано из оригинала 2014-08-08 . Получено 2018-03-22 .
^ "BabelNet API". Babelnet.org. Архивировано из оригинала 2018-03-22 . Получено 2018-03-22 .
^ "WordNet::SenseRelate". Senserelate.sourceforge.net. Архивировано из оригинала 2018-03-21 . Получено 2018-03-22 .
^ "UKB: Graph Base WSD". Ixa2.si.ehu.es. Архивировано из оригинала 2018-03-12 . Получено 2018-03-22 .
^ "Lexical Knowledge Base (LKB)". Moin.delph-in.net. 2018-02-05. Архивировано из оригинала 2018-03-09 . Получено 2018-03-22 .
^ alvations. "pyWSD". Github.com. Архивировано из оригинала 2018-06-11 . Получено 2018-03-22 .

Цитируемые работы

Агирре, Э.; Лопес де Лакалле, А.; Сороа, А. (2009). «WSD на основе знаний в определенных областях: работает лучше, чем общий контролируемый WSD» (PDF) . Труды IJCAI .
Agirre, E.; Stevenson, M. (2007). "Источники знаний для WSD". В Agirre, E.; Edmonds, P. (ред.). Устранение неоднозначности смысла слов: алгоритмы и приложения . Нью-Йорк: Springer. ISBN 978-1402068706.
Бар-Хиллел, И. (1964). Язык и информация . Рединг, Массачусетс: Addison-Wesley.
Буителар, П.; Магнини, Б.; Страппарава, К.; Воссен, П. (2006). «Доменно-специфический WSD». В Agirre, Э.; Эдмондс, П. (ред.). Устранение неоднозначности смысла слов: алгоритмы и приложения . Нью-Йорк: Springer.
Чан, YS; Нг, HT (2005). Масштабирование устранения неоднозначности смысла слов с помощью параллельных текстов . Труды 20-й Национальной конференции по искусственному интеллекту. Питтсбург: AAAI.
Ди Марко, А.; Навильи, Р. (2013). «Кластеризация и диверсификация результатов веб-поиска с помощью индукции смысла слов на основе графов». Computational Linguistics . 39 (3). MIT Press: 709–754. doi :10.1162/COLI_a_00148. S2CID 1775181.
Эдмондс, П. (2000). «Разработка задачи для SENSEVAL-2» (Техническая записка). Брайтон, Великобритания: Университет Брайтона.
Феллбаум, Кристиан (1997). «Анализ задания по почерку». Труды семинара ANLP-97 по разметке текста с помощью лексической семантики: почему, что и как?. Вашингтон, округ Колумбия{{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
Gliozzo, A.; Magnini, B.; Strapparava, C. (2004). Неконтролируемая оценка релевантности домена для устранения неоднозначности смысла слова (PDF) . Труды конференции 2004 года по эмпирическим методам в обработке естественного языка. Барселона, Испания: EMNLP.
Ide, N.; Erjavec, T.; Tufis, D. (2002). Различение смысла с параллельными корпусами (PDF) . Труды семинара ACL по разрешению неоднозначности смысла слов: недавние успехи и будущие направления. Филадельфия.
Лапата, М.; Келлер, Ф. (2007). Подход к поиску информации для ранжирования смыслов (PDF) . Труды конференции по технологиям человеческого языка североамериканского отделения Ассоциации компьютерной лингвистики. Рочестер, Нью-Йорк: HLT-NAACL.
Ленат, Д.; Гуха, Р.В. (1989). Создание больших систем, основанных на знаниях . Эддисон-Уэсли.
Леск, М. (1986). Автоматическое разрешение смысловой неоднозначности с использованием машиночитаемых словарей: как отличить сосновую шишку от мороженого в рожке (PDF) . Труды SIGDOC-86: 5-я Международная конференция по системной документации. Торонто, Канада.
Литковски, К. К. (2005). «Вычислительные лексиконы и словари». В Брауне, К. Р. (ред.). Энциклопедия языка и лингвистики (2-е изд.). Оксфорд: Elsevier Publishers.
Magnini, B.; Cavaglià, G. (2000). Интеграция кодов предметных полей в WordNet . Труды 2-й конференции по языковым ресурсам и оценке. Афины, Греция: LREC.
Маккарти, Д.; Коелинг, Р.; Видс, Дж.; Кэрролл, Дж. (2007). «Неконтролируемое приобретение преобладающих смыслов слов» (PDF) . Компьютерная лингвистика . 33 (4): 553–590. doi :10.1162/coli.2007.33.4.553.
Маккарти, Д.; Навильи, Р. (2009). «Задача по английской лексической замене» (PDF) . Языковые ресурсы и оценка . 43 (2). Springer: 139–159. doi :10.1007/s10579-009-9084-1. S2CID 16888516.
Mihalcea, R. (апрель 2007 г.). Использование Википедии для автоматического устранения неоднозначности смысла слов (PDF) . Proc. Североамериканского отделения Ассоциации компьютерной лингвистики. Рочестер, Нью-Йорк: NAACL. Архивировано из оригинала (PDF) 24-07-2008.
Мохаммад, С.; Хёрст, Г. (2006). Определение доминирования смысла слова с использованием тезауруса (PDF) . Труды 11-й конференции Европейского отделения Ассоциации компьютерной лингвистики. Тренто, Италия: EACL.
Навильи, Р. (2006). Осмысленная кластеризация смыслов помогает повысить эффективность устранения неоднозначности смысла слов (PDF) . Труды 44-го ежегодного собрания Ассоциации компьютерной лингвистики совместно с 21-й Международной конференцией по компьютерной лингвистике. Сидней, Австралия: COLING-ACL. Архивировано из оригинала (PDF) 29-06-2011.
Навильи, Р.; Крисафулли, Г. (2010). Стимулирование смыслов слов для улучшения кластеризации результатов веб-поиска (PDF) . Труды конференции 2010 года по эмпирическим методам обработки естественного языка. MIT Stata Center, Массачусетс, США: EMNLP.
Навильи, Р.; Лапата, М. (2010). «Экспериментальное исследование связности графов для неконтролируемого устранения неоднозначности смысла слов» (PDF) . Труды IEEE по анализу шаблонов и машинному интеллекту . 32 (4). IEEE Press: 678–692. doi :10.1109/TPAMI.2009.36. PMID 20224123. S2CID 1454904.
Navigli, R.; Litkowski, K.; Hargraves, O. (2007). SemEval-2007 Task 07: Coarse-Grained English All-Words Task (PDF) . Proc. of Semeval-2007 Workshop ( SemEval ), in the 45th Annual Meeting of the Association for Computational Linguistics. Прага, Чешская Республика: ACL.
Навильи, Р.; Веларди, П. (2005). «Структурные семантические взаимосвязи: основанный на знаниях подход к разрешению неоднозначности смысла слов» (PDF) . Труды IEEE по анализу шаблонов и машинному интеллекту . 27 (7): 1075–1086. doi :10.1109/TPAMI.2005.149. PMID 16013755. S2CID 12898695.
Палмер, М.; Бабко-Малайя, О.; Данг, Х.Т. (2004). Различные уровни детализации для различных приложений (PDF) . Труды 2-го семинара по масштабируемым системам понимания естественного языка в HLT/NAACL. Бостон.
Понзетто, СП; Навильи, Р. (2010). Разрешения неоднозначности смысла слов с богатыми знаниями, конкурирующие с контролируемыми системами (PDF) . Труды 48-го ежегодного собрания Ассоциации компьютерной лингвистики. ACL. Архивировано из оригинала (PDF) 2011-09-30.
Pradhan, S.; Loper, E.; Dligach, D.; Palmer, M. (2007). SemEval-2007 Задача 17: Английская лексическая выборка, SRL и все слова (PDF) . Proc. семинара Semeval-2007 (SEMEVAL) на 45-м ежегодном собрании Ассоциации компьютерной лингвистики. Прага, Чешская Республика: ACL.
Шютце, Х. (1998). "Автоматическое различение смысла слов" (PDF) . Компьютерная лингвистика . 24 (1): 97–123.
Сноу, Р.; Пракаш, С.; Джурафски, Д.; Нг, А.Й. (2007). Обучение слиянию смыслов слов (PDF) . Труды Объединенной конференции 2007 года по эмпирическим методам обработки естественного языка и компьютерному обучению естественному языку. EMNLP-CoNLL.
Snyder, B.; Palmer, M. (2004). Задача на все английские слова. Proc. 3-го Международного семинара по оценке систем семантического анализа текста (Senseval-3). Барселона, Испания. Архивировано из оригинала 29-06-2011.
Уивер, Уоррен (1949). «Перевод» (PDF) . В Локке, ВН; Бут, А.Д. (ред.). Машинный перевод языков: четырнадцать эссе . Кембридж, Массачусетс: MIT Press.
Wilks, Y.; Slator, B.; Guthrie, L. (1996). Электрические слова: словари, компьютеры и значения . Кембридж, Массачусетс: MIT Press.
Yarowsky, D. (1992). Разрешение неоднозначности словесного смысла с использованием статистических моделей категорий Роже, обученных на больших корпусах. Труды 14-й конференции по компьютерной лингвистике. COLING.
Яровски, Д. (1995). Неконтролируемое разрешение неоднозначности смысла слов, конкурирующее с контролируемыми методами. Труды 33-го ежегодного собрания Ассоциации компьютерной лингвистики.

Дальнейшее чтение

Агирре, Энеко; Эдмондс, Филип, ред. (2007). Разрешение неоднозначности слов: алгоритмы и приложения . Springer. ISBN 978-1402068706.
Эдмондс, Филип; Килгаррифф, Адам (2002). «Введение в специальный выпуск по оценке систем разрешения неоднозначности смысла слов». Журнал естественной языковой инженерии . 8 (4): 279–291. doi :10.1017/S1351324902002966. S2CID 17866880.
Айд, Нэнси; Веронис, Жан (1998). «Устранение неоднозначности смысла слова: современное состояние» (PDF) . Компьютерная лингвистика . 24 (1): 1–40.
Джурафски, Дэниел; Мартин, Джеймс Х. (2000). Обработка речи и языка . Нью-Джерси, США: Prentice Hall.
Килгаррифф, А. (1997). «Я не верю в смыслы слов» (PDF) . Comput. Human . 31 (2): 91–113. doi :10.1023/A:1000583911091. S2CID 3265361.
Килгаррифф, А.; Грефенстет, Г. (2003). «Введение в специальный выпуск о вебе как корпусе» (PDF) . Компьютерная лингвистика . 29 (3): 333–347. doi :10.1162/089120103322711569. S2CID 2649448.
Мэннинг, Кристофер Д.; Шютце, Хинрих (1999). Основы статистической обработки естественного языка . Кембридж, Массачусетс: MIT Press.
Навильи, Роберто (2009). «Разрешение неоднозначности смысла слов: обзор» (PDF) . ACM Computing Surveys . 41 (2): 1–69. doi :10.1145/1459352.1459355. S2CID 461624.
Резник, Филипп; Яровски, Дэвид (2000). «Различие систем и различение смыслов: новые методы оценки для устранения неоднозначности смысла слов». Natural Language Engineering . 5 (2): 113–133. doi :10.1017/S1351324999002211. S2CID 19915022.
Yarowsky, David (2001). «Word sense disambiguation» (Разрешение неоднозначности смысла слов). В Dale; et al. (ред.). Handbook of Natural Language Processing (Справочник по обработке естественного языка ). Нью-Йорк: Marcel Dekker. С. 629–654.

Внешние ссылки

Найдите информацию о разрешении неоднозначностей в Викисловаре, бесплатном словаре.

Специальный выпуск журнала «Computational Linguistics» о разрешении неоднозначности смысла слов (1998)
Учебное пособие по устранению неоднозначности значений слов, автор Рада Михалча и Тед Педерсен (2005).