СемЭвал

SemEval ( Semantic Evaluation ) — это непрерывная серия оценок систем вычислительного семантического анализа ; он произошел от серии оценок смысла слов Senseval . Оценки предназначены для изучения природы значения в языке. Хотя значение интуитивно понятно людям, перенести эту интуицию в вычислительный анализ оказалось неуловимо.

Эта серия оценок обеспечивает механизм для более точной характеристики того, что именно необходимо вычислить по смыслу. Таким образом, оценки обеспечивают новый механизм для выявления проблем и решений для вычислений, имеющих смысл. Эти упражнения были разработаны для того, чтобы сформулировать больше аспектов, связанных с нашим использованием языка. Они начали с, казалось бы, простых попыток определить смысл слов с помощью вычислений. Они были разработаны для исследования взаимосвязей между элементами предложения (например, маркировка семантических ролей ), отношений между предложениями (например, кореференция ) и природы того, что мы говорим (семантические отношения и анализ настроений ).

Целью упражнений SemEval и Senseval является оценка систем семантического анализа. « Семантический анализ » относится к формальному анализу значения, а «вычислительный» относится к подходам, которые в принципе поддерживают эффективную реализацию. ^[1]

Первые три оценки, от Senseval-1 до Senseval-3, были сосредоточены на устранении смысловой неоднозначности слов (WSD), причем с каждым разом количество языков, предлагаемых в заданиях, и количество участвующих команд увеличивалось. Начиная с четвертого семинара SemEval-2007 (SemEval-1), характер задач изменился и включил в себя задачи семантического анализа , выходящие за рамки устранения неоднозначности смысла слов. ^[2]

Вдохновленное концепцией конференции *SEM, сообщество SemEval решило проводить семинары по оценке ежегодно в рамках конференции *SEM. Также было принято решение, что не все задачи по оценке будут выполняться каждый год, например, ни одна из задач WSD не была включена в семинар SemEval-2012.

История

Ранняя оценка алгоритмов устранения неоднозначности смысла слов

С самых первых дней оценка качества алгоритмов устранения неоднозначности смысла слов была в первую очередь вопросом внутренней оценки , и «почти не было предпринято попыток оценить встроенные компоненты WSD». ^[3] Лишь совсем недавно ^{(2006 г.)} внешние оценки начали предоставлять некоторые доказательства ценности WSD в приложениях для конечных пользователей. ^[4] Примерно до 1990 года дискуссии по задаче устранения смысловой неоднозначности были сосредоточены в основном на иллюстративных примерах, а не на всесторонней оценке. В начале 1990-х годов начались более систематические и строгие внутренние оценки, включая более формальные эксперименты с небольшими наборами неоднозначных слов. ^[5]

От Сенсеваля до СемЭвала

В апреле 1997 года Марта Палмер и Марк Лайт организовали семинар под названием « Теги с помощью лексической семантики: почему, что и как?» совместно с Конференцией по прикладной обработке естественного языка. ^[6] В то время было четкое понимание того, что аннотированные вручную корпуса произвели революцию в других областях НЛП, таких как маркировка частей речи и синтаксический анализ , и что подходы, основанные на корпусе, потенциально могут совершить революцию и в автоматическом семантическом анализе. . ^[7] Килгаррифф напомнил, что существовала «высокая степень консенсуса в отношении того, что эта область нуждается в оценке», а несколько практических предложений Резника и Яровски положили начало дискуссии, которая привела к созданию оценочных упражнений Сенсеваля. ^[8]^[9]^[10]

3-, 2- или 1-летний цикл SemEval

После SemEval-2010 многие участники считают, что трехлетний цикл – это долгое ожидание. Многие другие общие задачи, такие как конференция по изучению естественного языка (CoNLL) и распознавание текстовых последствий (RTE), проводятся ежегодно. По этой причине координаторы SemEval предоставили организаторам задач возможность выбирать между двухлетним или трехлетним циклом. ^[11] Сообщество SemEval поддержало трехлетний цикл.
Хотя голоса внутри сообщества SemEval были в пользу трехлетнего цикла, организаторы и координаторы решили разделить задачу SemEval на два семинара по оценке. Этому способствовало введение новой конференции *SEM. Организаторы SemEval посчитали целесообразным связать наше мероприятие с конференцией *SEM и совместить семинар SemEval с конференцией *SEM. Организаторы получили очень положительные отзывы (от координаторов задач/организаторов и участников) об ассоциации с ежегодным *SEM, а 8 задач выразили готовность перейти на 2012 год. Так родились SemEval-2012 и SemEval-2013. Текущий план состоит в том, чтобы перейти на ежегодное расписание SemEval, чтобы связать его с конференцией *SEM, но не все задачи необходимо выполнять каждый год. ^[12]

Список семинаров Senseval и SemEval

Senseval-1 проходил летом 1998 года для английского, французского и итальянского языков, кульминацией которого стал семинар, проходивший в замке Херстмонсо, Сассекс, Англия, 2–4 сентября.
Senseval-2 состоялся летом 2001 года, за ним последовал семинар, проведенный в июле 2001 года в Тулузе, одновременно с ACL 2001. Senseval-2 включал задания на баскский , китайский , чешский , датский , голландский , английский , эстонский , Итальянский , японский , корейский , испанский и шведский .
Senseval-3 проходил в марте-апреле 2004 г., за ним последовал семинар, проведенный в июле 2004 г. в Барселоне совместно с ACL 2004. Senseval-3 включал 14 различных заданий на устранение неоднозначности основного смысла слов, а также определение семантических ролей, многоязычных аннотации, логические формы, приобретение подкатегорий.
SemEval-2007 (Senseval-4) состоялся в 2007 году, после чего последовал семинар, проведенный совместно с ACL в Праге. SemEval-2007 включал 18 различных задач по оценке систем семантического анализа текста. Результату посвящен специальный выпуск Language Resources and Evaluation . ^[13]
SemEval-2010 состоялся в 2010 году, после чего состоялся семинар, проведенный совместно с ACL в Уппсале. SemEval-2010 включал 18 различных задач по оценке систем семантического анализа.
SemEval-2012 состоялся в 2012 году; он был связан с новой *SEM, Первой совместной конференцией по лексической и вычислительной семантике, и проводился совместно с NAACL, Монреаль, Канада. SemEval-2012 включал в себя 8 различных задач, направленных на оценку вычислительных семантических систем. Однако в SemEval-2012 не было задачи WSD, задачи, связанные с WSD, были запланированы на предстоящий SemEval-2013.
SemEval-2013 был связан с NAACL 2013, Североамериканской ассоциацией компьютерной лингвистики, Джорджия, США, и проходил в 2013 году. Он включал в себя 13 различных задач, направленных на оценку вычислительных семантических систем.
SemEval-2014 состоялся в 2014 году. Он был совмещен с COLING 2014, 25-й Международной конференцией по компьютерной лингвистике, и *SEM 2014, Второй совместной конференцией по лексической и вычислительной семантике, Дублин, Ирландия. В SemEval-2014 было 10 различных задач по оценке различных вычислительных семантических систем.
SemEval-2015 состоялся в 2015 году. Он был совмещен с NAACL-HLT 2015, 2015 Конференцией Североамериканского отделения Ассоциации компьютерной лингвистики – Человеческие языковые технологии и *SEM 2015, Третьей совместной конференцией по лексической и вычислительной семантике, Денвер, США. В SemEval-2015 было 17 различных задач по оценке различных вычислительных семантических систем.

Структура семинара SemEval

Структура семинаров по оценке SemEval/Senseval имитирует конференции по анализу сообщений (MUC) и другие семинары по оценке, проводимые ARPA (Агентством перспективных исследовательских проектов, переименованным в Агентство перспективных исследовательских проектов Министерства обороны (DARPA) ).

Этапы оценочных семинаров SemEval/Senseval ^[14]

Во-первых, всем вероятным участникам было предложено выразить свою заинтересованность и принять участие в разработке плана учений.
Был составлен график проведения заключительного семинара.
Согласован план отбора оценочных материалов.
Были приобретены «золотые стандарты» для отдельных задач, часто люди-аннотаторы считались золотым стандартом для измерения точности и полноты памяти компьютерных систем. Эти «золотые стандарты» — то, к чему стремятся вычислительные системы. В задачах WSD перед аннотаторами-людьми была поставлена задача создать набор правильных ответов WSD (т. е. правильный смысл данного слова в данном контексте).
Материалы золотого стандарта без ответов были переданы участникам, у которых затем было короткое время, чтобы просмотреть их программы и вернуть свои наборы ответов организаторам.
Затем организаторы оценивали ответы, результаты были объявлены и обсуждены на семинаре.

Задачи семантической оценки

Senseval-1 и Senseval-2 были сосредоточены на оценке систем WSD на основных языках, для которых имелся корпус и компьютеризированный словарь. Senseval-3 вышел за рамки лексем и начал оценивать системы, которые изучают более широкие области семантики, такие как семантические роли (технически известные как тета-роли в формальной семантике), преобразование логических форм (обычно семантика фраз, предложений или предложений была представлена в логические формы первого порядка ) и Senseval-3 исследовали возможности семантического анализа машинного перевода .

По мере того, как типы различных вычислительных семантических систем выходили за пределы охвата WSD, Senseval превратился в SemEval, где оценивалось больше аспектов вычислительных семантических систем.

Обзор проблем семантического анализа

Упражнения SemEval предоставляют механизм для изучения проблем семантического анализа текстов. Интересующим темам не хватает логической строгости, присущей формальной вычислительной семантике, пытающейся идентифицировать и охарактеризовать виды проблем, имеющих отношение к человеческому пониманию языка. Основная цель — воспроизвести человеческую обработку с помощью компьютерных систем. Задачи (показанные ниже) разрабатываются отдельными лицами и группами для решения идентифицируемых проблем, поскольку они принимают конкретную форму.

Первой важной областью семантического анализа является выявление предполагаемого значения на уровне слова (включающего идиоматические выражения). Это устранение смысловой неоднозначности слов (концепция, которая развивается от представления о том, что слова имеют дискретные значения, а скорее характеризуются способами их использования, т.е. их контекстами). Задачи в этой области включают устранение лексической выборки и всех слов, много- и межъязыковое устранение неоднозначности, а также лексическую замену. Учитывая трудности определения значений слов, другие задачи, относящиеся к этой теме, включают в себя индукцию смысла слов, приобретение подкатегорий и оценку лексических ресурсов.

Второй важной областью семантического анализа является понимание того, как различные предложения и текстовые элементы сочетаются друг с другом. Задачи в этой области включают маркировку семантических ролей, анализ семантических отношений и разрешение кореференций. Другие задачи в этой области касаются более специализированных вопросов семантического анализа, таких как обработка временной информации, разрешение метонимии и анализ настроений. Задачи в этой области имеют множество потенциальных применений, таких как извлечение информации, ответы на вопросы, обобщение документов, машинный перевод, построение тезаурусов и семантических сетей, языковое моделирование, перефразирование и распознавание текстовых следствий. В каждом из этих потенциальных приложений вклад типов семантического анализа представляет собой наиболее выдающуюся исследовательскую проблему.

Например, в задаче индукции смысла слова и устранения неоднозначности есть три отдельных этапа:

На этапе обучения участникам оценочного задания было предложено использовать набор обучающих данных, чтобы вызвать инвентаризацию смысла для набора многозначных слов. Набор обучающих данных, состоящий из набора многозначных существительных/глаголов и экземпляров предложений, в которых они встречаются. Никакие другие ресурсы не допускались, кроме морфологических и синтаксических компонентов обработки естественного языка, таких как морфологические анализаторы , тегеры частей речи и синтаксические анализаторы. .
На этапе тестирования участникам был предоставлен тестовый набор для устранения неоднозначности подзадачи с использованием инвентаря, вызванного чувствами, полученного на этапе обучения.
На этапе оценки ответы на этап тестирования оценивались в контролируемой и неконтролируемой среде .

В неконтролируемой оценке WSI рассматривались два типа оценки V Measure (Rosenberg and Hirschberg, 2007) и парная F-Score (Artiles et al., 2009). Эта оценка следует за контролируемой оценкой задачи SemEval-2007 WSI (Агирре и Сороа, 2007 г.).

Обзор задач Senseval и SemEval

В таблицах ниже отражен рост семинара от Senseval до SemEval и представлен обзор того, какая область вычислительной семантики оценивалась на семинарах Senseval/SemEval.

Задача Multilingual WSD была представлена на семинаре SemEval-2013. ^[17] Задача направлена на оценку систем устранения неоднозначности слов в многоязычном сценарии с использованием BabelNet в качестве смыслового инвентаря. В отличие от аналогичной задачи, такой как межъязыковая WSD или задача многоязычной лексической замены , где не указан фиксированный смысловой инвентарь, многоязычный WSD использует BabelNet в качестве своего смыслового инвентаря. До разработки BabelNet задача оценки двуязычных лексических образцов WSD выполнялась в SemEval-2007 на китайско-английских битовых текстах. ^[18]

Межъязыковая задача WSD была представлена на семинаре по оценке SemEval-2007 и повторно предложена на семинаре SemEval-2013. ^[19] Чтобы облегчить интеграцию систем WSD в другие приложения обработки естественного языка (NLP), такие как машинный перевод и многоязычный поиск информации , для задачи межъязыковой оценки WSD был введен независимый от языка и основанный на знаниях подход к WSD. . Задача представляет собой неконтролируемое задание по устранению неоднозначности в смысле слова для английских существительных с помощью параллельных корпусов. Он соответствует лексически-образцовому варианту задачи Classic WSD, ограниченному только 20 многозначными существительными.

Стоит отметить, что в SemEval-2014 было только две многоязычные/межязычные задачи, а именно (i) задача L2 «Помощник по написанию», которая представляет собой межъязыковую задачу WSD, включающую английский, испанский, немецкий, французский и голландский языки, и (ii) задание «Многоязычное семантическое текстовое сходство», которое оценивает системы по английским и испанским текстам.

Области оценки

Основные задачи семантической оценки включают следующие области обработки естественного языка . Ожидается, что этот список будет расширяться по мере развития этой области. ^[20]

В следующей таблице показаны области исследований, которые были задействованы в Senseval-1 и SemEval-2014 (S относится к Senseval, а SE относится к SemEval, например S1 относится к Senseval-1, а SE07 относится к SemEval2007):

Тип семантических аннотаций

Задачи SemEval создали множество типов семантических аннотаций, каждый тип имеет различную схему. В SemEval-2015 организаторы решили сгруппировать задания в несколько треков. Эти треки относятся к типу семантических аннотаций, которых надеется достичь задача. ^[21] Здесь перечислены типы семантических аннотаций, используемых на семинарах SemEval:

Изучение семантических отношений
Вопрос и ответ
Семантический анализ
Семантическая таксономия
Анализ настроений
Сходство текста
Время и место
Устранение неоднозначности смысла слова и индукция

Задача и ее распределение треков являются гибкими; задача может развиваться в отдельный трек, например, задача оценки таксономии в SemEval-2015 находилась в треке «Изучение семантических отношений» , а в SemEval-2016 есть специальный трек для семантической таксономии с новой задачей «Обогащение семантической таксономии» . ^[22]^[23]

Смотрите также

Внешние ссылки

Специальная группа по лексике (SIGLEX) Ассоциации компьютерной лингвистики (ACL)
Семевал-2010 – Семинар по семантической оценке (при поддержке SIGLEX)
Senseval - международная организация, занимающаяся оценкой систем устранения неоднозначности Word Sense (одобрена SIGLEX)
Портал SemEval на Wiki Ассоциации компьютерной лингвистики
Задачи Senseval/SemEval:
- Senseval-1 – первое оценочное упражнение по системам устранения смысловой неоднозначности слов; лексико-образцовое задание оценивалось на английском, французском и итальянском языках.
- Senseval-2 - оцениваемые системы устранения неоднозначности смысла слов по трем типам задач (все слова, лексическая выборка и задача перевода).
- Senseval-3 – включал задания на устранение смысловой неоднозначности слов, а также определение семантических ролей, многоязычных аннотаций, логических форм, приобретение подкатегорий.
- SemEval-2007 - включал задачи, которые были более сложными, чем Senseval, поскольку они пересекают различные области исследований в области обработки естественного языка.
- SemEval-2010 — добавлены задачи из новых областей исследований в области вычислительной семантики, а именно: кореференция, многоточие, извлечение ключевых фраз, составные существительные и текстовое следование.
- SemEval-2012 - проходил одновременно с первой конференцией *SEM, а задача семантического сходства рекламировалась как *Sem Shared Task.
- SemEval-2013 – SemEval перешел с 2–3-летнего цикла на ежегодный семинар.
- SemEval-2014 – впервые SemEval обнаруживается на мероприятии, не относящемся к ACL, в COLING.
- SemEval-2015 – первый SemEval, задачи которого разбиты на различные треки.
- SemEval-2016 – второй SemEval без задачи WSD (первый был в SemEval-2012)
- *SEM – конференция для статей, связанных с SemEval, кроме систем задач.
Конференции по пониманию сообщений (MUC)
БабельНет
Open Multilingual WordNet – компиляция сетей WordNet с открытыми лицензиями.