Смысловая неоднозначность

Устранение смысловой неоднозначности ( WSD ) — это процесс определения того, какой смысл слова имеется в виду в предложении или другом сегменте контекста . При обработке и познании человеческого языка это обычно происходит подсознательно/автоматически, но часто может привлекать сознательное внимание, когда двусмысленность ухудшает ясность общения, учитывая широко распространенную многозначность естественного языка . В компьютерной лингвистике это открытая проблема , которая влияет на другие виды письменной речи, связанные с компьютером, такие как дискурс , повышение релевантности поисковых систем , разрешение анафор , связность и вывод .

Учитывая, что естественный язык требует отражения нейрологической реальности, сформированной способностями нейронных сетей мозга , перед информатикой стояла долгосрочная задача по развитию способности компьютеров выполнять обработку естественного языка и машинное обучение .

Было исследовано множество методов, в том числе методы на основе словаря, в которых используются знания, закодированные в лексических ресурсах, методы контролируемого машинного обучения , в которых классификатор обучается для каждого отдельного слова на корпусе примеров, вручную размеченных по смыслу, и полностью неконтролируемые методы, которые группируются. появление слов, тем самым вызывая смысл слов. Среди них подходы к контролируемому обучению на сегодняшний день являются наиболее успешными алгоритмами .

Точность существующих алгоритмов трудно оценить без множества оговорок. В английском языке точность на грубом уровне ( омографах ) обычно превышает 90% (по состоянию на 2009 год), при этом некоторые методы для конкретных омографов достигают более 96%. Что касается более мелких различий смыслов, то в ходе оценочных упражнений (SemEval-2007, Senseval-2) сообщалось о максимальной точности от 59,1% до 69,0%, где базовая точность простейшего возможного алгоритма всегда выбора наиболее частого смысла составляла 51,4%. и 57% соответственно.

Варианты

Устранение неоднозначности требует двух строгих входных данных: словаря для определения значений, которые необходимо устранить неоднозначность, и корпуса языковых данных , которые необходимо устранить неоднозначность (в некоторых методах также требуется обучающий корпус языковых примеров). Задача WSD имеет два варианта: «лексическая выборка» (устранение неоднозначности вхождений небольшой выборки целевых слов, которые были ранее выбраны) и задача «все слова» (устранение неоднозначности всех слов в бегущем тексте). Задача «Все слова» обычно считается более реалистичной формой оценки, но создание корпуса обходится дороже, поскольку аннотаторам-людям приходится читать определения для каждого слова в последовательности каждый раз, когда им нужно принять решение о тегировании, а не один раз. для блока экземпляров одного и того же целевого слова.

История

WSD была впервые сформулирована как отдельная вычислительная задача на заре машинного перевода в 1940-х годах, что сделало ее одной из старейших задач компьютерной лингвистики. Уоррен Уивер впервые представил эту проблему в вычислительном контексте в своем меморандуме о переводе 1949 года. ^[1] Позже Бар-Хилель (1960) утверждал ^[2] , что WSD не может быть решена с помощью «электронного компьютера» из-за необходимости в целом моделировать все мировые знания.

В 1970-х годах WSD представляла собой подзадачу систем семантической интерпретации, разработанных в области искусственного интеллекта, начиная с семантики предпочтений Уилкса . Однако, поскольку системы WSD в то время в основном основывались на правилах и кодировались вручную, они были подвержены узким местам в процессе получения знаний.

К 1980-м годам стали доступны крупномасштабные лексические ресурсы, такие как Оксфордский словарь современного английского языка для продвинутых учащихся (OALD): ручное кодирование было заменено знаниями, автоматически извлекаемыми из этих ресурсов, но устранение неоднозначности по-прежнему основывалось на знаниях или словарях. .

В 1990-х годах статистическая революция продвинула компьютерную лингвистику, и WSD стала парадигмальной проблемой, к которой можно было применить методы контролируемого машинного обучения.

В 2000-х годах точность контролируемых методов достигла плато, поэтому внимание сместилось к более грубым понятиям, адаптации предметной области , полуконтролируемым и неконтролируемым корпусным системам, комбинациям различных методов и возвращению систем, основанных на знаниях, через граф. -основанные методы. Тем не менее, контролируемые системы продолжают работать лучше всего.

Сложности

Различия между словарями

Одна из проблем, связанных с устранением неоднозначности смысла слова, заключается в определении того, что это за смысл, поскольку разные словари и тезаурусы обеспечивают разное разделение слов на смыслы. Некоторые исследователи предлагают выбрать конкретный словарь и использовать его набор смыслов для решения этой проблемы. Однако в целом результаты исследований, использующих широкие различия в смыслах, были намного лучше, чем результаты исследований, использующих узкие. ^[3]^[4] Большинство исследователей продолжают работать над более детальной WSD.

Большинство исследований в области WSD проводится с использованием WordNet в качестве эталонного словаря английского языка. WordNet — это вычислительный словарь , который кодирует понятия в виде наборов синонимов (например, понятие автомобиля кодируется как {автомобиль, авто, автомобиль, машина, автомобиль}). Другие ресурсы, используемые для устранения неоднозначности, включают Тезаурус Роже ^[5] и Википедию . ^[6] Совсем недавно для многоязычного WSD стал использоваться BabelNet , многоязычный энциклопедический словарь. ^[7]

Маркировка частей речи

В любом реальном тесте тегирование части речи и смысловое тегирование оказались очень тесно связанными, причем каждое из них потенциально налагало ограничения на другое. Вопрос о том, следует ли хранить эти задачи вместе или разделять их, до сих пор не решен единогласно, но в последнее время ученые склоняются к тому, чтобы проверять эти вещи по отдельности (например, в конкурсах Senseval/ SemEval в качестве входных данных для устранения неоднозначности текста предоставляются части речи).

Как WSD, так и маркировка частей речи включают устранение неоднозначности или маркировку словами. Однако алгоритмы, используемые для одного, обычно не работают хорошо для другого, главным образом потому, что часть речи слова в первую очередь определяется соседними от одного до трех слов, тогда как смысл слова может определяться словами, расположенными дальше. . Уровень успеха для алгоритмов маркировки частей речи в настоящее время намного выше, чем для WSD, точность на современном уровне составляет около 96% ^[ 8 ^{] или выше по сравнению с}^{точностью} менее 75% ^. в смысле слова устранение неоднозначности с контролируемым обучением . Эти цифры типичны для английского языка и могут сильно отличаться от показателей для других языков.

Разница между судьями

Другая проблема – разногласия между судьями . Системы WSD обычно тестируются путем сравнения их результатов выполнения задачи с результатами человека. Однако, хотя приписать части речи к тексту относительно легко, оказалось, что научить людей отмечать смыслы гораздо сложнее. ^[9] Хотя пользователи могут запомнить все возможные части речи, которые может принимать слово, людям часто невозможно запомнить все значения, которые может принимать слово. Более того, люди не согласны с поставленной задачей — дать список значений и предложений, и люди не всегда могут прийти к единому мнению, какое слово в каком смысле принадлежит. ^[10]

Поскольку производительность человека служит стандартом, она является верхней границей производительности компьютера. Однако производительность человека намного лучше при использовании грубозернистых различий, чем при мелкозернистых различиях, и именно поэтому исследования по грубым различиям ^[11]^[12] были подвергнуты проверке в недавних упражнениях по оценке WSD. ^[3]^[4]

Определить инвентаризацию и зависимость алгоритмов от задач

Независимая от задачи инвентаризация смыслов не является целостной концепцией: ^[13] каждая задача требует своего собственного разделения значения слова на смыслы, соответствующие задаче. Кроме того, для разных приложений могут потребоваться совершенно разные алгоритмы. В машинном переводе проблема принимает форму выбора целевого слова. «Чувства» — это слова на изучаемом языке, которые часто соответствуют значительным различиям значений в исходном языке («банк» можно перевести на французский банк , то есть «финансовый банк», или «рив », то есть «край реки». '). При поиске информации инвентаризация смысла не обязательно требуется, поскольку достаточно знать, что слово используется в одном и том же смысле в запросе и полученном документе; какой это смысл, неважно.

Дискретность чувств

Наконец, само понятие « смысл слова » является скользким и спорным. Большинство людей могут прийти к согласию в различиях на уровне грубого омографа (например, ручка как пишущий инструмент или корпус), но спустившись на один уровень к более мелкозернистой полисемии , возникают разногласия. Например, в Senseval-2, в котором использовались детальные смысловые различия, люди-аннотаторы соглашались только в 85% случаев появления слов. ^[14] Значение слова в принципе бесконечно изменчиво и зависит от контекста. Его нелегко разделить на отдельные или дискретные подзначения. ^[15] Лексикографы часто обнаруживают в корпусах свободные и перекрывающиеся значения слов, а также стандартные или общепринятые значения, которые расширяются, модулируются и используются ошеломляющим разнообразием способов. Искусство лексикографии заключается в обобщении корпуса определений, которые вызывают и объясняют весь диапазон значений слова, создавая впечатление, что слова ведут себя семантически хорошо. Однако совсем не ясно, применимы ли эти же различия значений в вычислительных приложениях , поскольку решения лексикографов обычно обусловлены другими соображениями. В 2009 году задача, названная лексической заменой , была предложена как возможное решение проблемы смысловой дискретности. ^[16] Задача состоит в предоставлении заменителя слова в контексте, сохраняющем значение исходного слова (потенциально заменители могут быть выбраны из полного словарного запаса целевого языка, преодолевая таким образом дискретность).

Подходы и методы

Существует два основных подхода к WSD – глубокие подходы и поверхностные подходы.

Глубокие подходы предполагают доступ к всеобъемлющему массиву мировых знаний . Эти подходы, как правило, не считаются очень успешными на практике, главным образом потому, что такой массив знаний не существует в машиночитаемом формате за пределами очень ограниченных областей. ^[17] Кроме того, из-за давней традиции компьютерной лингвистики опробовать такие подходы с точки зрения закодированных знаний, и в некоторых случаях может быть трудно провести различие между знаниями, включенными в лингвистические или мировые знания. Первую попытку предприняли Маргарет Мастерман и ее коллеги из Кембриджского отдела языковых исследований в Англии в 1950-х годах. Эта попытка использовала в качестве данных перфокарточную версию тезауруса Роже и его пронумерованные «головки» в качестве индикатора тем и искала повторения в тексте, используя заданный алгоритм пересечения. Он не имел большого успеха ^[18] , но имел прочную связь с более поздними работами, особенно с оптимизацией тезаурусного метода машинным обучением Яровского в 1990-х годах.

Поверхностный подход не пытается понять текст, а вместо этого рассматривает окружающие слова. Эти правила могут быть автоматически выведены компьютером с использованием обучающего набора слов, помеченных их значениями. Этот подход, хотя теоретически и не так эффективен, как глубокие подходы, на практике дает превосходные результаты из-за ограниченных знаний компьютера.

Существует четыре традиционных подхода к WSD:

Словарные методы и методы, основанные на знаниях: они полагаются в первую очередь на словари, тезаурусы и лексические базы знаний без использования каких-либо корпусных доказательств.
Методы с полу- или минимально-контролируемым контролем : они используют вторичный источник знаний, такой как небольшой аннотированный корпус в качестве исходных данных в процессе начальной загрузки, или двуязычный корпус, согласованный по словам.
Контролируемые методы : для обучения используются корпуса с смысловыми аннотациями.
Неконтролируемые методы : они (почти) полностью избегают внешней информации и работают непосредственно с необработанными неаннотированными корпусами. Эти методы также известны под названием распознавания смысла слов .

Почти все эти подходы работают путем определения окна из n содержательных слов вокруг каждого слова, которое необходимо устранить в корпусе, и статистического анализа этих n окружающих слов. Два поверхностных подхода, используемых для обучения, а затем устранения неоднозначности, — это наивные байесовские классификаторы и деревья решений . В недавних исследованиях методы на основе ядра , такие как машины опорных векторов, показали превосходную производительность в контролируемом обучении . Подходы на основе графов также привлекли большое внимание исследовательского сообщества и в настоящее время достигают производительности, близкой к современному уровню техники.

Словарные и основанные на знаниях методы

Алгоритм Леска ^[19] является оригинальным методом, основанным на словарях. Он основан на гипотезе о том, что слова, используемые вместе в тексте, связаны друг с другом и что эту связь можно наблюдать в определениях слов и их значений. Два (или более) слова устраняются неоднозначностью путем нахождения пары словарных значений с наибольшим совпадением слов в их словарных определениях. Например, при устранении неоднозначности слов из слова «сосновая шишка» определения соответствующих значений включают слова «вечнозеленый» и «дерево» (по крайней мере, в одном словаре). Подобный подход ^[20] ищет кратчайший путь между двумя словами: второе слово итеративно ищется среди определений каждого семантического варианта первого слова, затем среди определений каждого семантического варианта каждого слова в предыдущих определениях и так далее. на. Наконец, первое слово устраняется путем выбора семантического варианта, который минимизирует расстояние от первого до второго слова.

Альтернативой использованию определений является рассмотрение общей смысловой связи слов и вычисление семантического сходства каждой пары значений слов на основе заданной лексической базы знаний, такой как WordNet . Методы на основе графов, напоминающие исследования распространения активации на заре исследований ИИ, применялись с некоторым успехом. Было показано, что более сложные подходы на основе графов работают почти так же хорошо, как контролируемые методы ^[21] или даже превосходят их в определенных областях. ^[3]^[22] Недавно сообщалось, что простые меры связности графов , такие как степень , выполняют современный WSD при наличии достаточно богатой лексической базы знаний. ^[23] Кроме того, было показано, что автоматическая передача знаний в форме семантических отношений из Википедии в WordNet стимулирует простые методы, основанные на знаниях, позволяя им конкурировать с лучшими контролируемыми системами и даже превосходить их в условиях конкретной предметной области. ^[24]

Использование предпочтений выбора (или ограничений выбора) также полезно: например, зная, что человек обычно готовит еду, можно устранить неоднозначность слова «бас» в фразе «Я готовлю бас» (т. е. это не музыкальный инструмент).

Контролируемые методы

Контролируемые методы основаны на предположении, что контекст сам по себе может предоставить достаточно доказательств для устранения неоднозначности слов (следовательно, здравый смысл и рассуждения считаются ненужными). Вероятно, каждый существующий алгоритм машинного обучения был применен к WSD, включая связанные с ним методы, такие как выбор функций , оптимизация параметров и ансамблевое обучение . Машины опорных векторов и обучение на основе памяти оказались наиболее успешными подходами на сегодняшний день, вероятно, потому, что они могут справиться с многомерностью пространства признаков. Однако эти контролируемые методы сталкиваются с новым узким местом в получении знаний, поскольку для обучения они полагаются на значительное количество корпусов, помеченных вручную сенсорными метками, создание которых трудоемко и дорого.

Полуконтролируемые методы

Из-за отсутствия обучающих данных многие алгоритмы устранения неоднозначности смысла слов используют полуконтролируемое обучение , которое позволяет использовать как помеченные, так и неразмеченные данные. Алгоритм Яровского был ранним примером такого алгоритма. ^[25] Он использует свойства человеческих языков «Один смысл на словосочетание» и «Один смысл на дискурс» для устранения неоднозначности смысла слов. Судя по наблюдениям, слова имеют тенденцию проявлять только один смысл в большинстве конкретных дискурсов и в данном словосочетании. ^[26]

Подход начальной загрузки начинается с небольшого количества исходных данных для каждого слова: либо обучающие примеры, помеченные вручную, либо небольшое количество надежных правил принятия решений (например, «играть» в контексте «бас» почти всегда указывает на музыкальный инструмент). Начальные значения используются для обучения исходного классификатора с использованием любого контролируемого метода. Затем этот классификатор используется в нетегированной части корпуса для извлечения более крупного обучающего набора, в который включены только наиболее достоверные классификации. Процесс повторяется, каждый новый классификатор обучается на последовательно увеличивающемся обучающем корпусе до тех пор, пока не будет использован весь корпус или пока не будет достигнуто заданное максимальное количество итераций.

Другие полуконтролируемые методы используют большое количество непомеченных корпусов для предоставления информации о совместном возникновении , которая дополняет помеченные корпуса. Эти методы могут помочь в адаптации контролируемых моделей к различным областям.

Кроме того, неоднозначное слово на одном языке часто переводится разными словами на втором языке в зависимости от смысла слова. Двуязычные корпуса , выровненные по словам, использовались для определения межъязыковых смысловых различий, что представляло собой своего рода полуконтролируемую систему. ^{[ нужна цитата ]}

Неконтролируемые методы

Обучение без присмотра является самой большой проблемой для исследователей WSD. Основное предположение заключается в том, что сходные смыслы возникают в схожих контекстах, и, таким образом, смыслы могут быть вызваны из текста путем группировки вхождений слов с использованием некоторой меры сходства контекста, ^[27] задача, называемая индукцией или распознаванием смысла слова . Затем новые появления слова можно классифицировать по ближайшим индуцированным кластерам/смыслам. Производительность была ниже, чем у других методов, описанных выше, но сравнения затруднены, поскольку вызываемые чувства должны быть сопоставлены с известным словарем значений слов. Если сопоставление с набором словарных смыслов нежелательно, можно выполнить оценки на основе кластеров (включая меры энтропии и чистоты). Альтернативно, методы индукции смысла слова можно протестировать и сравнить в приложении. Например, было показано, что индукция смысла слов улучшает кластеризацию результатов веб-поиска за счет повышения качества кластеров результатов и степени диверсификации списков результатов. ^[28]^[29] Есть надежда, что обучение без учителя позволит преодолеть узкое место в приобретении знаний , поскольку оно не зависит от ручного труда.

Представление слов с учетом их контекста посредством плотных векторов фиксированного размера ( встраивание слов ) стало одним из наиболее фундаментальных блоков в нескольких системах НЛП. ^[30]^[31]^[32] Несмотря на то, что большинство традиционных методов встраивания слов объединяют слова с несколькими значениями в одно векторное представление, их все равно можно использовать для улучшения WSD. ^[33] Простой подход к использованию предварительно вычисленных вложений слов для представления смыслов слов состоит в вычислении центроидов смысловых кластеров. ^[34]^[35] В дополнение к методам внедрения слов, лексические базы данных (например, WordNet , ConceptNet , BabelNet ) также могут помочь неконтролируемым системам в отображении слов и их значений в виде словарей. Некоторые методы, сочетающие лексические базы данных и встраивание слов, представлены в AutoExtend ^[36]^[37] и Most Fit Sense Annotation (MSSA). ^[38] В AutoExtend ^[37] они представляют метод, который разделяет входное представление объекта на его свойства, такие как слова и их значения. AutoExtend использует структуру графа для отображения слов (например, текста) и объектов, не являющихся словами (например, синсетов в WordNet ), в качестве узлов, а взаимосвязей между узлами — в виде ребер. Отношения (ребра) в AutoExtend могут выражать сложение или сходство между его узлами. Первый отражает интуицию, лежащую в основе исчисления смещения, ^[30] , а второй определяет сходство между двумя узлами. В MSSA ^[38] неконтролируемая система устранения неоднозначности использует сходство между смыслами слов в фиксированном контекстном окне для выбора наиболее подходящего смысла слова с использованием предварительно обученной модели встраивания слов и WordNet . Для каждого контекстного окна MSSA вычисляет центроид каждого определения смысла слова путем усреднения векторов слов его слов в глоссах WordNet (т. е. кратком определяющем глоссе и одном или нескольких примерах использования), используя предварительно обученную модель встраивания слов. Эти центроиды позже используются для выбора смысла слова с наибольшим сходством целевого слова с его непосредственно соседними соседями (т. е. словами-предшественниками и последователями). После того, как все слова аннотированы и устранены неоднозначности, их можно использовать в качестве обучающего корпуса в любой стандартной технике встраивания слов. В своей улучшенной версии MSSA может использовать встраивания смысла слов для итеративного повторения процесса устранения неоднозначности.

Другие подходы

Другие подходы могут отличаться по своим методам:

Устранение неоднозначности на основе предметной области; ^[39]^[40]
Выявление доминирующих смыслов слов; ^[41]^[42]^[43]
WSD с использованием межъязыковых доказательств. ^[44]^[45]
Решение WSD в независимом от языка NLU Джона Болла , сочетающем теорию Patom и RRG (ролевая и ссылочная грамматика)
Вывод типа в грамматиках на основе ограничений ^[46]

Другие языки

Хинди : отсутствие лексических ресурсов на хинди затрудняет работу контролируемых моделей WSD, в то время как неконтролируемые модели страдают из-за обширной морфологии. Возможным решением этой проблемы является построение модели WSD посредством параллельных корпусов . ^[47]^[48] Создание WordNet на хинди проложило путь для нескольких контролируемых методов, которые, как было доказано, обеспечивают более высокую точность в устранении неоднозначности существительных. ^[49]

Местные препятствия и резюме

Узкое место в получении знаний, возможно, является основным препятствием на пути решения проблемы WSD. Неконтролируемые методы основаны на знаниях о значениях слов, которые лишь скудно сформулированы в словарях и лексических базах данных. Контролируемые методы в решающей степени зависят от наличия вручную аннотированных примеров для каждого значения слова, что является необходимым условием ^{[ когда? ]} можно встретить только для нескольких слов в целях тестирования, как это делается в упражнениях Сенсеваля .

Одним из наиболее многообещающих направлений в исследованиях WSD является использование крупнейшего когда-либо доступного массива данных — Всемирной паутины — для автоматического получения лексической информации. ^[50] WSD традиционно понимался как технология разработки промежуточного языка, которая могла бы улучшить такие приложения, как поиск информации (IR). Однако в данном случае верно и обратное: поисковые системы в Интернете реализуют простые и надежные методы IR, которые могут успешно искать в Интернете информацию для использования в WSD. Историческая нехватка обучающих данных спровоцировала появление некоторых новых алгоритмов и методов, как описано в разделе « Автоматическое получение корпусов с сенсорными метками» .

Внешние источники знаний

Знания являются фундаментальным компонентом WSD. Источники знаний предоставляют данные, необходимые для связи смыслов со словами. Они могут варьироваться от корпусов текстов, немаркированных или аннотированных по смыслу слов, до машиночитаемых словарей, тезаурусов, глоссариев, онтологий и т. д. Их можно ^[51]^[52] классифицировать следующим образом:

Структурированный:

Неструктурированный:

Ресурсы совместного размещения
Другие ресурсы (такие как списки частотности слов , стоп-листы , метки доменов, ^[53] и т. д.)
Корпуса : необработанные корпуса и корпуса со смысловыми аннотациями.

Оценка

Сравнивать и оценивать различные системы WSD чрезвычайно сложно из-за различных наборов тестов, наборов чувств и используемых ресурсов знаний. До организации конкретных оценочных кампаний большинство систем оценивались на основе собственных, часто небольших наборов данных . Чтобы протестировать свой алгоритм, разработчикам следует потратить время на аннотирование всех вхождений слов. И сравнение методов даже в одном корпусе недопустимо, если существуют разные по смыслу описи.

Для определения общих наборов данных и процедур оценки были организованы кампании общественной оценки. Senseval (теперь переименованный в SemEval ) — международный конкурс по устранению неоднозначности смысла слов, который проводится каждые три года, начиная с 1998 года: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 (2004) и его преемник SemEval (2007). . Целью конкурса является организация различных лекций, подготовка и ручное аннотирование корпуса для тестирования систем, проведение сравнительной оценки систем WSD в нескольких видах задач, включая все слова и лексические образцы WSD для разных языков, и, в последнее время, , новые задачи, такие как разметка семантических ролей , глоссария WSD, лексическая замена и т. д. Системы, представленные для оценки на этих конкурсах, обычно объединяют различные методы и часто сочетают контролируемые и основанные на знаниях методы (особенно во избежание плохих результатов из-за отсутствия обучающих примеров) .

В последние годы , ^2007-2012 годы , выбор задач оценки WSD расширился, и критерий оценки WSD радикально изменился в зависимости от варианта задачи оценки WSD. Ниже перечислено разнообразие задач WSD:

Варианты оформления задач

По мере развития технологий задачи устранения неоднозначности в смысле слова (WSD) расширяются по-разному в зависимости от направлений исследований и для большего количества языков:

Классические одноязычные задачи оценки WSD используют WordNet в качестве смыслового инвентаря и в основном основаны на контролируемой / полуконтролируемой классификации с аннотированными вручную корпусами: ^[54]
- Классический английский WSD использует Princeton WordNet для определения инвентаризации, а первичные входные классификационные данные обычно основаны на корпусе SemCor.
- Классический WSD для других языков использует соответствующие WordNet в качестве смысловых описей и смысловых аннотированных корпусов, помеченных на соответствующих языках. Часто исследователи также используют корпус SemCor и выравнивают битексты, используя английский в качестве исходного языка.
Задача межъязыковой оценки WSD также ориентирована на WSD на двух или более языках одновременно. В отличие от многоязычных задач WSD, вместо предоставления вручную примеров со смысловыми аннотациями для каждого значения многозначного существительного, инвентарь смыслов строится на основе параллельных корпусов, например, корпуса Europarl. ^[55]
Задачи многоязычной оценки WSD были сосредоточены на WSD на двух или более языках одновременно с использованием соответствующих сетей WordNet в качестве инвентаря смыслов или BabelNet в качестве многоязычного инвентаря смыслов. ^[56] Он возник на основе задач оценки Translation WSD, которые выполнялись в Senseval-2. Популярный подход состоит в том, чтобы выполнить одноязычный WSD, а затем сопоставить смыслы исходного языка с соответствующими переводами целевых слов. ^[57]
Задача индукции смысла слова и устранения неоднозначности — это комбинированная оценка задачи, в которой инвентаризация смысла сначала создается на основе данных фиксированного обучающего набора , состоящего из многозначных слов и предложения, в котором они встречаются, затем WSD выполняется на другом наборе тестовых данных . ^[58]

Программное обеспечение

Babelfy, ^[59] унифицированная современная система для многоязычного устранения неоднозначности в смысле слова и связывания сущностей.
BabelNet API, ^[60] API Java для многоязычного устранения неоднозначности слов на основе знаний на 6 различных языках с использованием семантической сети BabelNet.
WordNet::SenseRelate, ^[61] проект, включающий бесплатные системы с открытым исходным кодом для устранения неоднозначности смысла слов и устранения неоднозначности смысла лексических образцов.
UKB: Graph Base WSD, ^[62] набор программ для выполнения графического устранения неоднозначности в смысле слова и лексического сходства/сходства с использованием уже существующей базы лексических знаний ^[63]
pyWSD, ^[64] реализации технологий устранения неоднозначности Word Sense (WSD) на Python.

Смотрите также

Викискладе есть медиафайлы, связанные с категорией: Разрешение смысловой неоднозначности.

Цитируемые работы

Агирре, Э.; Лопес де Лакаль, А.; Сороа, А. (2009). «WSD на основе знаний в конкретных областях: эффективность лучше, чем у обычного контролируемого WSD» (PDF) . Учеб. IJCAI .
Агирре, Э.; Стивенсон, М. (2007). «Источники знаний для WSD». Ин Агирре, Э.; Эдмондс, П. (ред.). Устранение неоднозначности смысла слова: алгоритмы и приложения . Нью-Йорк: Спрингер. ISBN 978-1402068706.
Бар-Хилель, Ю. (1964). Язык и информация . Ридинг, Массачусетс: Аддисон-Уэсли.
Буйтелаар, П.; Маньини, Б.; Страппарава, К.; Воссен, П. (2006). «WSD для конкретного домена». Ин Агирре, Э.; Эдмондс, П. (ред.). Устранение неоднозначности смысла слова: алгоритмы и приложения . Нью-Йорк: Спрингер.
Чан, Ю.С.; Нг, ХТ (2005). Расширение смысловой неоднозначности слов с помощью параллельных текстов . Материалы 20-й Национальной конференции по искусственному интеллекту. Питтсбург: АААИ.
Ди Марко, А.; Навильи, Р. (2013). «Кластеризация и диверсификация результатов веб-поиска с помощью графической индукции смысла слов». Компьютерная лингвистика . МТИ Пресс. 39 (3): 709–754. дои : 10.1162/COLI_a_00148. S2CID 1775181.
Эдмондс, П. (2000). «Разработка задания для СЕНСЕВАЛ-2» (Техн. примечание). Брайтон, Великобритания: Брайтонский университет.
Феллбаум, Кристиана (1997). «Анализ почерковедческого задания». Учеб. семинара ANLP-97 «Разметка текста лексической семантикой: почему, что и как?» . Вашингтон{{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
Глиоццо, А.; Маньини, Б.; Страппарава, К. (2004). Неконтролируемая оценка релевантности домена для устранения неоднозначности смысла слов (PDF) . Материалы конференции 2004 г. по эмпирическим методам обработки естественного языка. Барселона, Испания: EMNLP.
Иде, Н.; Эрьявец, Т.; Туфис, Д. (2002). Различение чувств с помощью параллельных корпусов (PDF) . Материалы семинара ACL по устранению неоднозначности смысла слов: недавние успехи и будущие направления. Филадельфия.
Лапата, М.; Келлер, Ф. (2007). Информационно-поисковый подход к смысловому ранжированию (PDF) . Материалы конференции по технологиям человеческого языка Североамериканского отделения Ассоциации компьютерной лингвистики. Рочестер, Нью-Йорк: HLT-NAACL.
Ленат, Д.; Гуха, Р.В. (1989). Создание больших систем, основанных на знаниях . Аддисон-Уэсли.
Леск, М. (1986). Автоматическое устранение смысловой неоднозначности с использованием машиночитаемых словарей: Как отличить сосновую шишку от рожка мороженого (PDF) . Учеб. SIGDOC-86: 5-я Международная конференция по системной документации. Торонто, Канада.
Литковский, К.К. (2005). «Вычислительные лексиконы и словари». В Брауне, КР (ред.). Энциклопедия языка и лингвистики (2-е изд.). Оксфорд: Издательство Elsevier.
Маньини, Б.; Кавалья, Г. (2000). Интеграция кодов предметных полей в WordNet . Материалы 2-й конференции по языковым ресурсам и оценке. Афины, Греция: LREC.
Маккарти, Д.; Коелинг, Р.; Сорняки, Дж.; Кэрролл, Дж. (2007). «Неконтролируемое приобретение преобладающих значений слов» (PDF) . Компьютерная лингвистика . 33 (4): 553–590. дои : 10.1162/coli.2007.33.4.553.
Маккарти, Д.; Навильи, Р. (2009). «Задача на лексическую замену английского языка» (PDF) . Языковые ресурсы и оценка . Спрингер. 43 (2): 139–159. дои : 10.1007/s10579-009-9084-1. S2CID 16888516.
Михалча, Р. (апрель 2007 г.). Использование Википедии для автоматического устранения неоднозначности смысла слов (PDF) . Учеб. Североамериканского отделения Ассоциации компьютерной лингвистики. Рочестер, Нью-Йорк: NAACL. Архивировано из оригинала (PDF) 24 июля 2008 г.
Мохаммед, С.; Херст, Г. (2006). Определение доминирования смысла слова с помощью тезауруса (PDF) . Материалы 11-й конференции европейского отделения Ассоциации компьютерной лингвистики. Тренто, Италия: EACL.
Навильи, Р. (2006). Значимая кластеризация смыслов помогает повысить эффективность устранения неоднозначности смысла слов (PDF) . Учеб. 44-го ежегодного собрания Ассоциации компьютерной лингвистики, совместного с 21-й Международной конференцией по компьютерной лингвистике. Сидней, Австралия: COLING-ACL. Архивировано из оригинала (PDF) 29 июня 2011 г.
Навильи, Р.; Крисафулли, Г. (2010). Использование смысла слов для улучшения кластеризации результатов веб-поиска (PDF) . Учеб. Конференции 2010 года по эмпирическим методам обработки естественного языка. Статацентр Массачусетского технологического института, Массачусетс, США: EMNLP.
Навильи, Р.; Лапата, М. (2010). «Экспериментальное исследование связности графов для неконтролируемого устранения неоднозначности смысла слов» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . IEEE Пресс. 32 (4): 678–692. дои : 10.1109/TPAMI.2009.36. PMID 20224123. S2CID 1454904.
Навильи, Р.; Литковский, К.; Харгрейвс, О. (2007). SemEval-2007, задание 07: задание на определение всех слов английского языка (PDF) . Учеб. семинара Semeval-2007 ( SemEval ) в рамках 45-го ежегодного собрания Ассоциации компьютерной лингвистики. Прага, Чехия: ACL.
Навильи, Р.; Веларди, П. (2005). «Структурно-семантические взаимосвязи: основанный на знаниях подход к устранению смысловой неоднозначности слов» (PDF) . Транзакции IEEE по анализу шаблонов и машинному интеллекту . 27 (7): 1075–1086. дои : 10.1109/TPAMI.2005.149. PMID 16013755. S2CID 12898695.
Палмер, М.; Бабко-Малая, О.; Данг, ХТ (2004). Разная степень детализации смысла для разных приложений (PDF) . Материалы 2-го семинара по масштабируемым системам понимания естественного языка в HLT/NAACL. Бостон.
Понцетто, СП; Навильи, Р. (2010). Богатые знания Word Sense Disambiguation, конкурирующие с контролируемыми системами (PDF) . Учеб. 48-го ежегодного собрания Ассоциации компьютерной лингвистики. ACL. Архивировано из оригинала (PDF) 30 сентября 2011 г.
Прадхан, С.; Лопер, Э.; Длигач, Д.; Палмер, М. (2007). SemEval-2007 Задание 17: Английский лексический образец, SRL и все слова (PDF) . Учеб. семинара Semeval-2007 (SEMEVAL) на 45-м ежегодном собрании Ассоциации компьютерной лингвистики. Прага, Чехия: ACL.
Шютце, Х. (1998). «Автоматическое распознавание смысла слов» (PDF) . Компьютерная лингвистика . 24 (1): 97–123.
Сноу, Р.; Пракаш, С.; Юрафский, Д.; Нг, АЙ (2007). Учимся объединять смыслы слов (PDF) . Материалы совместной конференции 2007 г. по эмпирическим методам обработки естественного языка и вычислительному изучению естественного языка. EMNLP-CoNLL.
Снайдер, Б.; Палмер, М. (2004). Английское задание на все слова. Учеб. 3-го Международного семинара по оценке систем семантического анализа текста (Senseval-3). Барселона, Испания. Архивировано из оригинала 29 июня 2011 г.
Уивер, Уоррен (1949). «Перевод» (PDF) . В Локке, Западная Нью-Йорк; Бут, AD (ред.). Машинный перевод языков: четырнадцать эссе . Кембридж, Массачусетс: MIT Press.
Уилкс, Ю.; Слатор, Б.; Гатри, Л. (1996). Электрические слова: словари, компьютеры и значения . Кембридж, Массачусетс: MIT Press.
Яровский, Д. (1992). Устранение смысловой неоднозначности с использованием статистических моделей категорий Роже, обученных на больших корпусах. Учеб. 14-й конференции по компьютерной лингвистике. ОХЛАЖДЕНИЕ.
Яровский, Д. (1995). Неконтролируемое устранение неоднозначности смысла слов, конкурирующее с контролируемыми методами. Учеб. 33-го ежегодного собрания Ассоциации компьютерной лингвистики.

дальнейшее чтение

Агирре, Энеко; Эдмондс, Филип, ред. (2007). Устранение неоднозначности смысла слова: алгоритмы и приложения . Спрингер. ISBN 978-1402068706.
Эдмондс, Филип; Килгаррифф, Адам (2002). «Введение в специальный выпуск по оценке систем устранения неоднозначности смысла слов». Журнал инженерии естественного языка . 8 (4): 279–291. дои : 10.1017/S1351324902002966. S2CID 17866880.
Иде, Нэнси; Веронис, Жан (1998). «Устранение неоднозначности смысла слова: современное состояние» (PDF) . Компьютерная лингвистика . 24 (1): 1–40.
Юрафский, Дэниел; Мартин, Джеймс Х. (2000). Речевая и языковая обработка . Нью-Джерси, США: Прентис Холл.
Килгаррифф, А. (1997). «Я не верю в смысл слов» (PDF) . Вычислить. Человек . 31 (2): 91–113. дои : 10.1023/А: 1000583911091. S2CID 3265361.
Килгаррифф, А.; Грефенштетт, Г. (2003). «Введение в специальный выпуск в Интернете в виде корпуса» (PDF) . Компьютерная лингвистика . 29 (3): 333–347. дои : 10.1162/089120103322711569. S2CID 2649448.
Мэннинг, Кристофер Д.; Шютце, Хинрих (1999). Основы статистической обработки естественного языка . Кембридж, Массачусетс: MIT Press.
Навильи, Роберто (2009). «Устранение неоднозначности смысла слова: опрос» (PDF) . Обзоры вычислительной техники ACM . 41 (2): 1–69. дои : 10.1145/1459352.1459355. S2CID 461624.
Резник, Филип; Яровский, Дэвид (2000). «Различение систем и различение смыслов: новые методы оценки для устранения неоднозначности смысла слов». Инженерия естественного языка . 5 (2): 113–133. дои : 10.1017/S1351324999002211. S2CID 19915022.
Яровский, Дэвид (2001). «Разрешение смысла слова». В Дейле; и другие. (ред.). Справочник по обработке естественного языка . Нью-Йорк: Марсель Деккер. стр. 629–654.

Внешние ссылки

Поищите значения неоднозначности в Викисловаре, бесплатном словаре.

Специальный выпуск компьютерной лингвистики, посвященный устранению неоднозначности смысла слов (1998)
Учебник по устранению неоднозначности в смысле слова, автор Рада Михалча и Тед Педерсен (2005).