stringtranslate.com

СемЭвал

SemEval ( Semantic Evaluation ) — это непрерывная серия оценок систем вычислительного семантического анализа ; он произошел от серии оценок смысла слов Senseval . Оценки предназначены для изучения природы значения в языке. Хотя значение интуитивно понятно людям, перенести эту интуицию в вычислительный анализ оказалось неуловимо.

Эта серия оценок обеспечивает механизм для более точной характеристики того, что именно необходимо вычислить по смыслу. Таким образом, оценки обеспечивают новый механизм для выявления проблем и решений для вычислений, имеющих смысл. Эти упражнения были разработаны для того, чтобы сформулировать больше аспектов, связанных с нашим использованием языка. Они начали с, казалось бы, простых попыток определить смысл слов с помощью вычислений. Они были разработаны для исследования взаимосвязей между элементами предложения (например, маркировка семантических ролей ), отношений между предложениями (например, кореференция ) и природы того, что мы говорим (семантические отношения и анализ настроений ).

Целью упражнений SemEval и Senseval является оценка систем семантического анализа. « Семантический анализ » относится к формальному анализу значения, а «вычислительный» относится к подходам, которые в принципе поддерживают эффективную реализацию. [1]

Первые три оценки, от Senseval-1 до Senseval-3, были сосредоточены на устранении смысловой неоднозначности слов (WSD), причем с каждым разом количество языков, предлагаемых в заданиях, и количество участвующих команд увеличивалось. Начиная с четвертого семинара SemEval-2007 (SemEval-1), характер задач изменился и включил в себя задачи семантического анализа , выходящие за рамки устранения неоднозначности смысла слов. [2]

Вдохновленное концепцией конференции *SEM, сообщество SemEval решило проводить семинары по оценке ежегодно в рамках конференции *SEM. Также было принято решение, что не все задачи по оценке будут выполняться каждый год, например, ни одна из задач WSD не была включена в семинар SemEval-2012.

История

Ранняя оценка алгоритмов устранения неоднозначности смысла слов

С самых первых дней оценка качества алгоритмов устранения неоднозначности смысла слов была в первую очередь вопросом внутренней оценки , и «почти не было предпринято попыток оценить встроенные компоненты WSD». [3] Лишь совсем недавно (2006 г.) внешние оценки начали предоставлять некоторые доказательства ценности WSD в приложениях для конечных пользователей. [4] Примерно до 1990 года дискуссии по задаче устранения смысловой неоднозначности были сосредоточены в основном на иллюстративных примерах, а не на всесторонней оценке. В начале 1990-х годов начались более систематические и строгие внутренние оценки, включая более формальные эксперименты с небольшими наборами неоднозначных слов. [5]

От Сенсеваля до СемЭвала

В апреле 1997 года Марта Палмер и Марк Лайт организовали семинар под названием « Теги с помощью лексической семантики: почему, что и как?» совместно с Конференцией по прикладной обработке естественного языка. [6] В то время было четкое понимание того, что аннотированные вручную корпуса произвели революцию в других областях НЛП, таких как маркировка частей речи и синтаксический анализ , и что подходы, основанные на корпусе, потенциально могут совершить революцию и в автоматическом семантическом анализе. . [7] Килгаррифф напомнил, что существовала «высокая степень консенсуса в отношении того, что эта область нуждается в оценке», а несколько практических предложений Резника и Яровски положили начало дискуссии, которая привела к созданию оценочных упражнений Сенсеваля. [8] [9] [10]

3-, 2- или 1-летний цикл SemEval

После SemEval-2010 многие участники считают, что трехлетний цикл – это долгое ожидание. Многие другие общие задачи, такие как конференция по изучению естественного языка (CoNLL) и распознавание текстовых последствий (RTE), проводятся ежегодно. По этой причине координаторы SemEval предоставили организаторам задач возможность выбирать между двухлетним или трехлетним циклом. [11] Сообщество SemEval поддержало трехлетний цикл.
Хотя голоса внутри сообщества SemEval были в пользу трехлетнего цикла, организаторы и координаторы решили разделить задачу SemEval на два семинара по оценке. Этому способствовало введение новой конференции *SEM. Организаторы SemEval посчитали целесообразным связать наше мероприятие с конференцией *SEM и совместить семинар SemEval с конференцией *SEM. Организаторы получили очень положительные отзывы (от координаторов задач/организаторов и участников) об ассоциации с ежегодным *SEM, а 8 задач выразили готовность перейти на 2012 год. Так родились SemEval-2012 и SemEval-2013. Текущий план состоит в том, чтобы перейти на ежегодное расписание SemEval, чтобы связать его с конференцией *SEM, но не все задачи необходимо выполнять каждый год. [12]

Список семинаров Senseval и SemEval

Структура семинара SemEval

Структура семинаров по оценке SemEval/Senseval имитирует конференции по анализу сообщений (MUC) и другие семинары по оценке, проводимые ARPA (Агентством перспективных исследовательских проектов, переименованным в Агентство перспективных исследовательских проектов Министерства обороны (DARPA) ).

SemEval Framework, адаптированный из введения MUC
SemEval Framework, адаптированный из введения MUC

Этапы оценочных семинаров SemEval/Senseval [14]

  1. Во-первых, всем вероятным участникам было предложено выразить свою заинтересованность и принять участие в разработке плана учений.
  2. Был составлен график проведения заключительного семинара.
  3. Согласован план отбора оценочных материалов.
  4. Были приобретены «золотые стандарты» для отдельных задач, часто люди-аннотаторы считались золотым стандартом для измерения точности и полноты памяти компьютерных систем. Эти «золотые стандарты» — то, к чему стремятся вычислительные системы. В задачах WSD перед аннотаторами-людьми была поставлена ​​задача создать набор правильных ответов WSD (т. е. правильный смысл данного слова в данном контексте).
  5. Материалы золотого стандарта без ответов были переданы участникам, у которых затем было короткое время, чтобы просмотреть их программы и вернуть свои наборы ответов организаторам.
  6. Затем организаторы оценивали ответы, результаты были объявлены и обсуждены на семинаре.

Задачи семантической оценки

Senseval-1 и Senseval-2 были сосредоточены на оценке систем WSD на основных языках, для которых имелся корпус и компьютеризированный словарь. Senseval-3 вышел за рамки лексем и начал оценивать системы, которые изучают более широкие области семантики, такие как семантические роли (технически известные как тета-роли в формальной семантике), преобразование логических форм (обычно семантика фраз, предложений или предложений была представлена ​​в логические формы первого порядка ) и Senseval-3 исследовали возможности семантического анализа машинного перевода .

По мере того, как типы различных вычислительных семантических систем выходили за пределы охвата WSD, Senseval превратился в SemEval, где оценивалось больше аспектов вычислительных семантических систем.

Обзор проблем семантического анализа

Упражнения SemEval предоставляют механизм для изучения проблем семантического анализа текстов. Интересующим темам не хватает логической строгости, присущей формальной вычислительной семантике, пытающейся идентифицировать и охарактеризовать виды проблем, имеющих отношение к человеческому пониманию языка. Основная цель — воспроизвести человеческую обработку с помощью компьютерных систем. Задачи (показанные ниже) разрабатываются отдельными лицами и группами для решения идентифицируемых проблем, поскольку они принимают конкретную форму.

Первой важной областью семантического анализа является выявление предполагаемого значения на уровне слова (включающего идиоматические выражения). Это устранение смысловой неоднозначности слов (концепция, которая развивается от представления о том, что слова имеют дискретные значения, а скорее характеризуются способами их использования, т.е. их контекстами). Задачи в этой области включают устранение лексической выборки и всех слов, много- и межъязыковое устранение неоднозначности, а также лексическую замену. Учитывая трудности определения значений слов, другие задачи, относящиеся к этой теме, включают в себя индукцию смысла слов, приобретение подкатегорий и оценку лексических ресурсов.

Второй важной областью семантического анализа является понимание того, как различные предложения и текстовые элементы сочетаются друг с другом. Задачи в этой области включают маркировку семантических ролей, анализ семантических отношений и разрешение кореференций. Другие задачи в этой области касаются более специализированных вопросов семантического анализа, таких как обработка временной информации, разрешение метонимии и анализ настроений. Задачи в этой области имеют множество потенциальных применений, таких как извлечение информации, ответы на вопросы, обобщение документов, машинный перевод, построение тезаурусов и семантических сетей, языковое моделирование, перефразирование и распознавание текстовых следствий. В каждом из этих потенциальных приложений вклад типов семантического анализа представляет собой наиболее выдающуюся исследовательскую проблему.

Например, в задаче индукции смысла слова и устранения неоднозначности есть три отдельных этапа:

  1. На этапе обучения участникам оценочного задания было предложено использовать набор обучающих данных, чтобы вызвать инвентаризацию смысла для набора многозначных слов. Набор обучающих данных, состоящий из набора многозначных существительных/глаголов и экземпляров предложений, в которых они встречаются. Никакие другие ресурсы не допускались, кроме морфологических и синтаксических компонентов обработки естественного языка, таких как морфологические анализаторы , тегеры частей речи и синтаксические анализаторы. .
  2. На этапе тестирования участникам был предоставлен тестовый набор для устранения неоднозначности подзадачи с использованием инвентаря, вызванного чувствами, полученного на этапе обучения.
  3. На этапе оценки ответы на этап тестирования оценивались в контролируемой и неконтролируемой среде .

В неконтролируемой оценке WSI рассматривались два типа оценки V Measure (Rosenberg and Hirschberg, 2007) и парная F-Score (Artiles et al., 2009). Эта оценка следует за контролируемой оценкой задачи SemEval-2007 WSI (Агирре и Сороа, 2007 г.).

Обзор задач Senseval и SemEval

В таблицах ниже отражен рост семинара от Senseval до SemEval и представлен обзор того, какая область вычислительной семантики оценивалась на семинарах Senseval/SemEval.

Задача Multilingual WSD была представлена ​​на семинаре SemEval-2013. [17] Задача направлена ​​на оценку систем устранения неоднозначности слов в многоязычном сценарии с использованием BabelNet в качестве смыслового инвентаря. В отличие от аналогичной задачи, такой как межъязыковая WSD или задача многоязычной лексической замены , где не указан фиксированный смысловой инвентарь, многоязычный WSD использует BabelNet в качестве своего смыслового инвентаря. До разработки BabelNet задача оценки двуязычных лексических образцов WSD выполнялась в SemEval-2007 на китайско-английских битовых текстах. [18]

Межъязыковая задача WSD была представлена ​​на семинаре по оценке SemEval-2007 и повторно предложена на семинаре SemEval-2013. [19] Чтобы облегчить интеграцию систем WSD в другие приложения обработки естественного языка (NLP), такие как машинный перевод и многоязычный поиск информации , для задачи межъязыковой оценки WSD был введен независимый от языка и основанный на знаниях подход к WSD. . Задача представляет собой неконтролируемое задание по устранению неоднозначности в смысле слова для английских существительных с помощью параллельных корпусов. Он соответствует лексически-образцовому варианту задачи Classic WSD, ограниченному только 20 многозначными существительными.

Стоит отметить, что в SemEval-2014 было только две многоязычные/межязычные задачи, а именно (i) задача L2 «Помощник по написанию», которая представляет собой межъязыковую задачу WSD, включающую английский, испанский, немецкий, французский и голландский языки, и (ii) задание «Многоязычное семантическое текстовое сходство», которое оценивает системы по английским и испанским текстам.

Области оценки

Основные задачи семантической оценки включают следующие области обработки естественного языка . Ожидается, что этот список будет расширяться по мере развития этой области. [20]

В следующей таблице показаны области исследований, которые были задействованы в Senseval-1 и SemEval-2014 (S относится к Senseval, а SE относится к SemEval, например S1 относится к Senseval-1, а SE07 относится к SemEval2007):

Тип семантических аннотаций

Задачи SemEval создали множество типов семантических аннотаций, каждый тип имеет различную схему. В SemEval-2015 организаторы решили сгруппировать задания в несколько треков. Эти треки относятся к типу семантических аннотаций, которых надеется достичь задача. [21] Здесь перечислены типы семантических аннотаций, используемых на семинарах SemEval:

  1. Изучение семантических отношений
  2. Вопрос и ответ
  3. Семантический анализ
  4. Семантическая таксономия
  5. Анализ настроений
  6. Сходство текста
  7. Время и место
  8. Устранение неоднозначности смысла слова и индукция

Задача и ее распределение треков являются гибкими; задача может развиваться в отдельный трек, например, задача оценки таксономии в SemEval-2015 находилась в треке «Изучение семантических отношений» , а в SemEval-2016 есть специальный трек для семантической таксономии с новой задачей «Обогащение семантической таксономии» . [22] [23]

Смотрите также

Рекомендации

  1. ^ Блэкберн, П., и Бос, Дж. (2005), Представление и вывод для естественного языка: первый курс вычислительной семантики , Публикации CSLI. ISBN  1-57586-496-7 .
  2. ^ Навильи, Р. (2009). «Разрешение смысла слова». Обзоры вычислительной техники ACM . 41 (2): 1–69. дои : 10.1145/1459352.1459355. S2CID  461624.
  3. ^ Палмер, М., Нг, ХТ, и Хоа, ТД (2006), Оценка систем WSD , в Энеко Агирре и Фил Эдмондс (ред.), Устранение неоднозначности в смысле слова: алгоритмы и приложения, Текст, речь и языковые технологии, том . 33. Амстердам: Спрингер, 75–106.
  4. ^ Резник, П. (2006), WSD в приложениях НЛП , в Энеко Агирре и Филе Эдмондсе (ред.), Устранение неоднозначности в смысле слова: алгоритмы и приложения. Дордрехт: Спрингер, 299–338.
  5. ^ Яровский, Д. (1992), Устранение смысловой неоднозначности с использованием статистических моделей категорий Роже, обученных на больших корпусах . Материалы 14-й конференции по компьютерной лингвистике, 454–60. дои : 10.3115/992133.992140
  6. ^ Палмер М. и Лайт М. (1999), Маркировка лексической семантикой: почему, что и как? | Семинар ACL SIGLEX по разметке текста лексической семантикой: что, зачем и как? Архивировано 15 июля 2010 г. в Wayback Machine Natural Language Engineering 5 (2): i – iv.
  7. ^ Ng, HT (1997), Серьезное отношение к устранению неоднозначности смысла слов . Материалы семинара ACL SIGLEX по разметке текста с помощью лексической семантики: почему, что и как? 1–7.
  8. ^ Филип Резник и Джимми Лин (2010). Оценка систем НЛП . В составе редакторов Александр Кларк, Крис Фокс и Шалом Лаппин. Справочник по компьютерной лингвистике и обработке естественного языка. Уайли-Блэквеллис. 11:271
  9. ^ Адам Килгаррифф и Марта Палмер (редактор 2000 г.). Специальный выпуск «Компьютеры и гуманитарные науки», SENSEVAL98: Оценка систем устранения неоднозначности в смысле слова . Клювер, 34: 1–2.
  10. ^ Скотт Коттон, Фил Эдмондс, Адам Килгаррифф и Марта Палмер (редактор 2001 г.). SENSEVAL-2: Второй международный семинар по оценке систем устранения неоднозначности в смысле слов . Семинар SIGLEX, ACL03, Тулуза, Франция.
  11. ^ SIGLEX: Доска объявлений (2010). Получено 15 августа 2012 г. с http://www.clres.com/siglex/messdisp.php?id=111.
  12. ^ Сообщение SemEval 3 в группе Google. Получено 15 августа 2012 г. с сайта https://groups.google.com/forum/?fromgroups#!topic/semeval3/8YXMvVlH-CM%5B1-25%5D.
  13. ^ Языковые ресурсы и оценка, том 43, номер 2 [ неработающая ссылка ]
  14. ^ Килгаррифф, А. (1998). SENSEVAL: упражнение по оценке программ устранения неоднозначности в смысле слова . В Proc. LREC, Гранада, май 1998 г., стр. 581–588.
  15. ^ «Задачи <СемЭвал-2017». alt.qcri.org . Проверено 4 мая 2018 г.
  16. ^ «Задачи <СемЭвал-2018». alt.qcri.org . Проверено 4 мая 2018 г.
  17. ^ Навильи Р., Юргенс Д. и Ваннелла Д. (июнь 2013 г.). Задание 12 «Семевал-2013»: Многоязычное устранение смысловой неоднозначности слов. В материалах 7-го Международного семинара по семантической оценке (SemEval 2013), совместно со Второй совместной конференцией по лексической и вычислительной семантике (* SEM 2013) (стр. 222-231).
  18. ^ Пэн Цзинь, Юньфан Ву и Шивэнь Ю. Задача 05 SemEval-2007: многоязычный китайско-английский лексический образец. Материалы 4-го Международного семинара по семантическим оценкам, стр. 19-23, 23–24 июня 2007 г., Прага, Чехия.
  19. ^ Лефевер Э. и Хосте В. (июнь 2013 г.). Задание 10 «Семевал-2013»: Межъязыковое устранение смысловой неоднозначности слов. Во Второй совместной конференции по лексической и вычислительной семантике (Том 2, стр. 158-166).
  20. ^ Портал SemEval (nd). В ACLвики. Получено 12 августа 2010 г. с http://aclweb.org/aclwiki/index.php?title=SemEval_Portal.
  21. ^ Сайт СемЭвал-2015 . Получено 14 ноября 2014 г. http://alt.qcri.org/semeval2015/index.php?id=tasks.
  22. ^ Джорджета Бордеа, Пол Буителаар, Стефано Фаралли и Роберто Навильи. 2015. Semeval-2015, задание 17: Оценка извлечения таксономии (TExEval) . В материалах 9-го международного семинара по семантической оценке. Денвер, США.
  23. ^ Сайт СемЭвал-2016 . Получено 4 июня 2015 г. http://alt.qcri.org/semeval2016/.

Внешние ссылки