Разрешение неоднозначности словесного смысла — это процесс определения того, какой смысл слова подразумевается впредложении или другом сегменте контекста . Ви познании человеческого языка это обычно происходит подсознательно.
Учитывая, что естественный язык требует отражения неврологической реальности, сформированной возможностями нейронных сетей мозга , перед компьютерной наукой в течение длительного времени стояла задача разработки возможностей компьютеров для обработки естественного языка и машинного обучения .
Было исследовано множество методов, включая методы на основе словарей, которые используют знания, закодированные в лексических ресурсах, контролируемые методы машинного обучения , в которых классификатор обучается для каждого отдельного слова на корпусе примеров, вручную аннотированных по смыслу, и полностью неконтролируемые методы, которые кластеризуют вхождения слов, тем самым вызывая смыслы слов. Среди них контролируемые подходы к обучению были наиболее успешными алгоритмами на сегодняшний день.
Точность текущих алгоритмов трудно оценить без множества оговорок. В английском языке точность на грубозернистом ( омографическом ) уровне обычно превышает 90% (по состоянию на 2009 год), а некоторые методы на отдельных омографах достигают более 96%. На более мелкозернистых смысловых различиях наивысшие точности от 59,1% до 69,0% были зарегистрированы в оценочных упражнениях (SemEval-2007, Senseval-2), где базовая точность простейшего возможного алгоритма всегда выбирать наиболее частый смысл составляла 51,4% и 57% соответственно.
Для устранения неоднозначности требуются два строгих входа: словарь для указания смыслов, которые должны быть устранены, и корпус языковых данных, которые должны быть устранены (в некоторых методах также требуется учебный корпус языковых примеров). Задача WSD имеет два варианта: «лексическая выборка» (устранение неоднозначности вхождений небольшой выборки целевых слов, которые были предварительно выбраны) и задача «все слова» (устранение неоднозначности всех слов в текущем тексте). Задача «все слова» обычно считается более реалистичной формой оценки, но создание корпуса обходится дороже, поскольку людям-аннотаторам приходится читать определения для каждого слова в последовательности каждый раз, когда им нужно вынести суждение о тегировании, а не один раз для блока примеров для одного и того же целевого слова.
WSD была впервые сформулирована как отдельная вычислительная задача в ранние дни машинного перевода в 1940-х годах, что сделало ее одной из старейших проблем в компьютерной лингвистике. Уоррен Уивер впервые представил проблему в вычислительном контексте в своем меморандуме о переводе 1949 года. [1] Позднее Бар-Хиллель (1960) утверждал [2] , что WSD не может быть решена «электронным компьютером» из-за необходимости в целом моделировать все мировые знания.
В 1970-х годах WSD была подзадачей систем семантической интерпретации, разработанных в области искусственного интеллекта, начиная с семантики предпочтений Уилкса . Однако, поскольку системы WSD в то время были в значительной степени основаны на правилах и кодировались вручную, они были склонны к узкому месту в получении знаний.
К 1980-м годам стали доступны масштабные лексические ресурсы, такие как Оксфордский словарь современного английского языка для продвинутых учащихся (OALD): ручное кодирование было заменено знаниями, автоматически извлекаемыми из этих ресурсов, но разрешение неоднозначности по-прежнему основывалось на знаниях или словаре.
В 1990-х годах статистическая революция способствовала развитию компьютерной лингвистики, и WSD стала парадигмальной проблемой, к которой можно было применять методы контролируемого машинного обучения.
В 2000-х годах контролируемые методы достигли плато в точности, и поэтому внимание переключилось на более грубые ощущения, адаптацию домена , полуконтролируемые и неконтролируемые системы на основе корпусов, комбинации различных методов и возврат систем, основанных на знаниях, через методы, основанные на графах. Тем не менее, контролируемые системы продолжают работать лучше всего.
Одной из проблем с разрешением неоднозначности смысла слова является решение того, что такое смыслы, поскольку разные словари и тезаурусы будут предоставлять разные разделения слов на смыслы. Некоторые исследователи предлагают выбрать конкретный словарь и использовать его набор смыслов для решения этой проблемы. Однако в целом результаты исследований с использованием широких различий в смыслах были намного лучше, чем с использованием узких. [3] [4] Большинство исследователей продолжают работать над мелкозернистым WSD.
Большинство исследований в области WSD выполняется с использованием WordNet в качестве справочного инвентаря смыслов для английского языка. WordNet — это вычислительный лексикон , который кодирует понятия как наборы синонимов (например, понятие автомобиля кодируется как {car, auto, automotive, machine, motorcar}). Другие ресурсы, используемые для устранения неоднозначности, включают Roget's Thesaurus [5] и Wikipedia . [6] Совсем недавно BabelNet , многоязычный энциклопедический словарь, использовался для многоязычного WSD. [7]
В любом реальном тесте маркировка частей речи и маркировка смысла оказались очень тесно связанными, причем каждая из них потенциально налагает ограничения на другую. Вопрос о том, следует ли держать эти задачи вместе или разделить, до сих пор не решен единогласно, но в последнее время ученые склоняются к тому, чтобы тестировать эти вещи по отдельности (например, в соревнованиях Senseval/ SemEval части речи предоставляются в качестве входных данных для текста, чтобы устранить неоднозначность).
И WSD, и разметка частей речи включают устранение неоднозначности или разметку со словами. Однако алгоритмы, используемые для одного, как правило, не работают хорошо для другого, в основном потому, что часть речи слова в первую очередь определяется непосредственно соседними одним-тремя словами, тогда как смысл слова может определяться словами, расположенными дальше. Уровень успешности алгоритмов разметки частей речи в настоящее время намного выше, чем для WSD, и на современном уровне составляет около 96% [8] точности или лучше, по сравнению с менее чем 75% [ требуется цитата ] точности при устранении неоднозначности смысла слова с контролируемым обучением . Эти цифры типичны для английского языка и могут сильно отличаться от цифр для других языков.
Другая проблема — это дисперсия между судьями . Системы WSD обычно тестируются путем сравнения их результатов по заданию с результатами человека. Однако, хотя относительно легко назначать части речи тексту, обучение людей маркировать смыслы оказалось гораздо сложнее. [9] Хотя пользователи могут запомнить все возможные части речи, которые может иметь слово, для людей часто невозможно запомнить все смыслы, которые может иметь слово. Более того, люди не соглашаются с поставленной задачей — дать список смыслов и предложений, и люди не всегда соглашаются с тем, какое слово принадлежит к какому смыслу. [10]
Поскольку человеческая производительность служит стандартом, она является верхней границей для производительности компьютера. Однако человеческая производительность намного лучше на грубозернистых, чем на тонкозернистых различиях, поэтому снова-таки исследования грубозернистых различий [11] [12] были подвергнуты проверке в недавних упражнениях по оценке WSD. [3] [4]
Независимый от задачи инвентарь смысла не является последовательной концепцией: [13] каждая задача требует своего собственного разделения значения слова на смыслы, соответствующие задаче. Кроме того, для разных приложений могут потребоваться совершенно разные алгоритмы. В машинном переводе проблема принимает форму выбора целевого слова. «Смыслы» — это слова на целевом языке, которые часто соответствуют значительным различиям в значении в исходном языке («bank» можно перевести как французское banque — то есть «финансовый банк» или rive — то есть «берег реки»). В информационном поиске инвентарь смысла не обязательно требуется, потому что достаточно знать, что слово используется в том же значении в запросе и извлеченном документе; какое это значение, неважно.
Наконец, само понятие « смысл слова » является скользким и спорным. Большинство людей могут согласиться с различиями на уровне грубозернистых омографов (например, ручка как пишущий инструмент или корпус), но спуститься на один уровень ниже до мелкозернистой полисемии , и возникают разногласия. Например, в Senseval-2, который использовал мелкозернистые смысловые различия, люди-аннотаторы согласились только в 85% случаев употребления слов. [14] Значение слова в принципе бесконечно изменчиво и чувствительно к контексту. Оно не делится легко на отдельные или дискретные подзначения. [15] Лексикографы часто обнаруживают в корпусах свободные и перекрывающиеся значения слов, а также стандартные или общепринятые значения, расширенные, модулированные и используемые ошеломляющим разнообразием способов. Искусство лексикографии заключается в обобщении корпуса до определений, которые вызывают и объясняют полный спектр значений слова, создавая впечатление, что слова ведут себя хорошо семантически. Однако совершенно не ясно, применимы ли эти же смысловые различия в вычислительных приложениях , поскольку решения лексикографов обычно обусловлены другими соображениями. В 2009 году была предложена задача, названная лексической заменой , в качестве возможного решения проблемы дискретности смысла. [16] Задача состоит в предоставлении замены для слова в контексте, которая сохраняет значение исходного слова (потенциально замены могут быть выбраны из полного лексикона целевого языка, таким образом преодолевая дискретность).
Существует два основных подхода к WSD — глубокий и поверхностный.
Глубокие подходы предполагают доступ к всеобъемлющему массиву мировых знаний . Эти подходы, как правило, не считаются очень успешными на практике, в основном потому, что такой массив знаний не существует в формате, пригодном для чтения компьютером, за пределами очень ограниченных областей. [17] Кроме того, из-за давней традиции в компьютерной лингвистике , попытки таких подходов с точки зрения кодированных знаний и в некоторых случаях может быть трудно отличить знания, связанные с лингвистическими или мировыми знаниями. Первая попытка была предпринята Маргарет Мастерман и ее коллегами в Кембриджском исследовательском подразделении языка в Англии в 1950-х годах. Эта попытка использовала в качестве данных версию тезауруса Роже на перфокартах и его пронумерованные «головы» в качестве индикатора тем и искала повторения в тексте, используя алгоритм пересечения множеств. Она была не очень успешной, [18] но имела прочные связи с более поздними работами, особенно с оптимизацией машинного обучения Яровски метода тезауруса в 1990-х годах.
Поверхностные подходы не пытаются понять текст, а вместо этого рассматривают окружающие слова. Эти правила могут быть автоматически выведены компьютером с использованием учебного корпуса слов, помеченных их смыслами. Этот подход, хотя теоретически не такой мощный, как глубокие подходы, дает превосходные результаты на практике из-за ограниченных знаний компьютера о мире.
Существует четыре традиционных подхода к WSD:
Почти все эти подходы работают, определяя окно из n слов контента вокруг каждого слова, которое должно быть устранено неоднозначностью в корпусе, и статистически анализируя эти n окружающих слов. Два поверхностных подхода, используемых для обучения и последующего устранения неоднозначности, — это наивные байесовские классификаторы и деревья решений . В недавних исследованиях методы на основе ядра , такие как машины опорных векторов, показали превосходную производительность в контролируемом обучении . Подходы на основе графов также привлекли большое внимание исследовательского сообщества и в настоящее время достигают производительности, близкой к современному уровню.
Алгоритм Леска [19] является основополагающим методом, основанным на словаре. Он основан на гипотезе, что слова, используемые вместе в тексте, связаны друг с другом и что эта связь может наблюдаться в определениях слов и их смыслах. Два (или более) слова устраняются путем нахождения пары словарных смыслов с наибольшим совпадением слов в их словарных определениях. Например, при устранении неоднозначности слов в «шишка» определения соответствующих смыслов включают слова вечнозеленый и дерево (по крайней мере в одном словаре). Похожий подход [20] ищет кратчайший путь между двумя словами: второе слово итеративно ищется среди определений каждого семантического варианта первого слова, затем среди определений каждого семантического варианта каждого слова в предыдущих определениях и так далее. Наконец, первое слово устраняется путем выбора семантического варианта, который минимизирует расстояние от первого до второго слова.
Альтернативой использованию определений является рассмотрение общей связи между словами и смыслами и вычисление семантического сходства каждой пары смыслов слов на основе заданной лексической базы знаний, такой как WordNet . Графические методы, напоминающие исследования распространения активации ранних дней исследований ИИ, применялись с некоторым успехом. Было показано, что более сложные графические подходы работают почти так же хорошо, как контролируемые методы [21] или даже превосходят их в определенных доменах. [3] [22] Недавно было сообщено, что простые меры связности графов , такие как степень , выполняют самые современные WSD при наличии достаточно богатой лексической базы знаний. [23] Кроме того, было показано, что автоматическая передача знаний в форме семантических отношений из Википедии в WordNet повышает эффективность простых методов, основанных на знаниях, позволяя им конкурировать с лучшими контролируемыми системами и даже превосходить их в условиях, специфичных для домена. [24]
Использование селективных предпочтений (или селективных ограничений) также полезно, например, зная, что человек обычно готовит еду, можно устранить неоднозначность слова «бас» в предложении «Я готовлю басы» (т. е. это не музыкальный инструмент).
Контролируемые методы основаны на предположении, что контекст может предоставить достаточно доказательств сам по себе, чтобы устранить неоднозначность слов (следовательно, здравый смысл и рассуждения считаются ненужными). Вероятно, каждый существующий алгоритм машинного обучения был применен к WSD, включая связанные с ним методы, такие как выбор признаков , оптимизация параметров и ансамблевое обучение . Было показано, что опорные векторные машины и обучение на основе памяти являются наиболее успешными подходами на сегодняшний день, вероятно, потому, что они могут справиться с высокой размерностью пространства признаков. Однако эти контролируемые методы подвержены новому узкому месту в получении знаний, поскольку они полагаются на значительные объемы вручную размеченных смысловых корпусов для обучения, которые трудоемки и дороги в создании.
Из-за отсутствия обучающих данных многие алгоритмы разрешения неоднозначности смысла слов используют полуконтролируемое обучение , которое допускает как маркированные, так и немаркированные данные. Алгоритм Яровского был ранним примером такого алгоритма. [25] Он использует свойства человеческих языков «Один смысл на словосочетание» и «Один смысл на дискурс» для разрешения неоднозначности смысла слов. Согласно наблюдениям, слова, как правило, демонстрируют только один смысл в большинстве заданных дискурсов и в заданных словосочетаниях. [26]
Подход бутстрэппинга начинается с небольшого количества начальных данных для каждого слова: либо вручную помеченные обучающие примеры , либо небольшое количество правил безошибочного принятия решений (например, «играть» в контексте «бас» почти всегда указывает на музыкальный инструмент). Начальные данные используются для обучения начального классификатора с использованием любого контролируемого метода. Затем этот классификатор используется на не помеченной части корпуса для извлечения большего обучающего набора, в который включены только самые надежные классификации. Процесс повторяется, каждый новый классификатор обучается на последовательно большем обучающем корпусе, пока не будет использован весь корпус или пока не будет достигнуто заданное максимальное количество итераций.
Другие полуконтролируемые методы используют большие объемы немаркированных корпусов для предоставления информации о совместном появлении , которая дополняет маркированные корпуса. Эти методы имеют потенциал для помощи в адаптации контролируемых моделей к различным доменам.
Кроме того, неоднозначное слово в одном языке часто переводится разными словами во втором языке в зависимости от смысла слова. Выровненные по словам двуязычные корпуса использовались для вывода кросс-лингвистических смысловых различий, своего рода полуконтролируемая система. [ необходима цитата ]
Неконтролируемое обучение является самой большой проблемой для исследователей WSD. Основное предположение заключается в том, что схожие смыслы встречаются в схожих контекстах, и, таким образом, смыслы могут быть вызваны из текста путем кластеризации вхождений слов с использованием некоторой меры сходства контекста [27] , задача, называемая индукцией или дискриминацией смысла слова . Затем новые вхождения слова могут быть классифицированы в ближайшие индуцированные кластеры/смыслы. Производительность была ниже, чем для других методов, описанных выше, но сравнения затруднены, поскольку индуцированные смыслы должны быть сопоставлены с известным словарем смыслов слова. Если сопоставление с набором смыслов словаря нежелательно, могут быть выполнены оценки на основе кластеров (включая меры энтропии и чистоты). В качестве альтернативы методы индукции смысла слова можно протестировать и сравнить в приложении. Например, было показано, что индукция смысла слова улучшает кластеризацию результатов веб-поиска, повышая качество кластеров результатов и степень диверсификации списков результатов. [28] [29] Есть надежда, что неконтролируемое обучение позволит преодолеть узкие места в приобретении знаний , поскольку оно не зависит от ручного труда.
Представление слов с учетом их контекста с помощью плотных векторов фиксированного размера ( внедрение слов ) стало одним из самых фундаментальных блоков в нескольких системах обработки естественного языка. [30] [31] [32] Несмотря на то, что большинство традиционных методов встраивания слов объединяют слова с несколькими значениями в одно векторное представление, их все равно можно использовать для улучшения WSD. [33] Простой подход к использованию предварительно вычисленных встраиваний слов для представления смыслов слов заключается в вычислении центроидов смысловых кластеров. [34] [35] В дополнение к методам встраивания слов лексические базы данных (например, WordNet , ConceptNet , BabelNet ) также могут помогать неконтролируемым системам в отображении слов и их смыслов в виде словарей. Некоторые методы, которые объединяют лексические базы данных и встраивания слов, представлены в AutoExtend [36] [37] и Most Suitable Sense Annotation (MSSA). [38] В AutoExtend [37] они представляют метод, который разделяет входное представление объекта на его свойства, такие как слова и их смыслы слов. AutoExtend использует структуру графа для отображения слов (например, текста) и не-слов (например, наборов синтаксиса в WordNet ) как узлов, а отношения между узлами как ребер. Отношения (ребра) в AutoExtend могут либо выражать добавление, либо сходство между его узлами. Первое отражает интуицию, лежащую в основе исчисления смещения, [30], тогда как последнее определяет сходство между двумя узлами. В MSSA [38] неконтролируемая система устранения неоднозначности использует сходство между смыслами слов в фиксированном окне контекста для выбора наиболее подходящего смысла слова с использованием предварительно обученной модели встраивания слов и WordNet . Для каждого контекстного окна MSSA вычисляет центроид каждого определения смысла слова, усредняя векторы слов в глоссах WordNet (т. е. краткий определяющий глосс и один или несколько примеров использования) с использованием предварительно обученной модели встраивания слов. Эти центроиды позже используются для выбора смысла слова с наивысшим сходством целевого слова с его непосредственно соседними соседями (т. е. предшествующими и последующими словами). После того, как все слова аннотированы и устранены неоднозначности, их можно использовать в качестве обучающего корпуса в любой стандартной технике встраивания слов. В своей улучшенной версии MSSA может использовать встраивания смысла слова для повторения своего процесса устранения неоднозначности итеративно.
Другие подходы могут отличаться по своим методам:
Узкое место в приобретении знаний, возможно, является основным препятствием для решения проблемы WSD. Неконтролируемые методы полагаются на знания о значениях слов, которые лишь скудно сформулированы в словарях и лексических базах данных. Контролируемые методы в решающей степени зависят от наличия вручную аннотированных примеров для каждого значения слова, требование, которое до сих пор [ когда? ] может быть выполнено только для нескольких слов в целях тестирования, как это делается в упражнениях Senseval .
Одной из самых многообещающих тенденций в исследовании WSD является использование самого большого корпуса , когда-либо доступного, Всемирной паутины , для автоматического получения лексической информации. [50] WSD традиционно понималась как промежуточная технология языковой инженерии, которая могла бы улучшить такие приложения, как поиск информации (IR). В этом случае, однако, верно и обратное: поисковые системы веб-сайтов реализуют простые и надежные методы IR, которые могут успешно добывать в Интернете информацию для использования в WSD. Историческая нехватка обучающих данных спровоцировала появление некоторых новых алгоритмов и методов, как описано в Автоматическое получение чувственно-тегированных корпусов .
Знание является фундаментальным компонентом WSD. Источники знаний предоставляют данные, которые необходимы для связывания смыслов со словами. Они могут варьироваться от корпусов текстов, как немаркированных, так и аннотированных смыслами слов, до машиночитаемых словарей, тезаурусов, глоссариев, онтологий и т. д. Их можно [51] [52] классифицировать следующим образом:
Структурировано:
Неструктурированный:
Сравнение и оценка различных систем WSD чрезвычайно сложны из-за различных наборов тестов, инвентаризаций чувств и принятых ресурсов знаний. До организации специальных оценочных кампаний большинство систем оценивались на внутренних, часто небольших, наборах данных . Чтобы протестировать свой алгоритм, разработчикам следует потратить свое время на аннотирование всех вхождений слов. И сравнение методов даже на одном корпусе недопустимо, если есть различные инвентаризации чувств.
Для определения общих наборов данных и процедур оценки были организованы кампании по публичной оценке. Senseval (теперь переименован в SemEval ) — это международный конкурс по разрешению неоднозначности смысла слов, который проводится каждые три года с 1998 года: Senseval-1 (1998), Senseval-2 (2001), Senseval-3 [узурпированный] (2004) и его преемник SemEval (2007). Целью конкурса является организация различных лекций, подготовка и ручное аннотирование корпуса для тестирования систем, проведение сравнительной оценки систем WSD в нескольких типах задач, включая WSD со всеми словами и лексическими образцами для разных языков, а в последнее время и новые задачи, такие как маркировка семантической роли , WSD глосса, лексическая замена и т. д. Системы, представленные для оценки на этих конкурсах, обычно интегрируют различные методы и часто объединяют контролируемые и основанные на знаниях методы (особенно для того, чтобы избежать плохой работы при отсутствии обучающих примеров).
В последние годы 2007-2012 выбор оценочных заданий WSD увеличился, и критерий оценки WSD радикально изменился в зависимости от варианта оценочного задания WSD. Ниже перечислены различные задания WSD:
По мере развития технологий задачи разрешения неоднозначности слов (WSD) расширяются в различных направлениях исследований и для большего количества языков:
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка )