SemEval ( Semantic Evaluation ) — это непрерывная серия оценок систем вычислительного семантического анализа ; он произошел от серии оценок смысла слов Senseval . Оценки предназначены для изучения природы значения в языке. Хотя значение интуитивно понятно людям, перенести эту интуицию в вычислительный анализ оказалось неуловимо.
Эта серия оценок обеспечивает механизм для более точной характеристики того, что именно необходимо вычислить по смыслу. Таким образом, оценки обеспечивают новый механизм для выявления проблем и решений для вычислений, имеющих смысл. Эти упражнения были разработаны для того, чтобы сформулировать больше аспектов, связанных с нашим использованием языка. Они начали с, казалось бы, простых попыток определить смысл слов с помощью вычислений. Они были разработаны для исследования взаимосвязей между элементами предложения (например, маркировка семантических ролей ), отношений между предложениями (например, кореференция ) и природы того, что мы говорим (семантические отношения и анализ настроений ).
Целью упражнений SemEval и Senseval является оценка систем семантического анализа. « Семантический анализ » относится к формальному анализу значения, а «вычислительный» относится к подходам, которые в принципе поддерживают эффективную реализацию. [1]
Первые три оценки, от Senseval-1 до Senseval-3, были сосредоточены на устранении смысловой неоднозначности слов (WSD), причем с каждым разом количество языков, предлагаемых в заданиях, и количество участвующих команд увеличивалось. Начиная с четвертого семинара SemEval-2007 (SemEval-1), характер задач изменился и включил в себя задачи семантического анализа , выходящие за рамки устранения неоднозначности смысла слов. [2]
Вдохновленное концепцией конференции *SEM, сообщество SemEval решило проводить семинары по оценке ежегодно в рамках конференции *SEM. Также было принято решение, что не все задачи по оценке будут выполняться каждый год, например, ни одна из задач WSD не была включена в семинар SemEval-2012.
С самых первых дней оценка качества алгоритмов устранения неоднозначности смысла слов была в первую очередь вопросом внутренней оценки , и «почти не было предпринято попыток оценить встроенные компоненты WSD». [3] Лишь совсем недавно (2006 г.) внешние оценки начали предоставлять некоторые доказательства ценности WSD в приложениях для конечных пользователей. [4] Примерно до 1990 года дискуссии по задаче устранения смысловой неоднозначности были сосредоточены в основном на иллюстративных примерах, а не на всесторонней оценке. В начале 1990-х годов начались более систематические и строгие внутренние оценки, включая более формальные эксперименты с небольшими наборами неоднозначных слов. [5]
В апреле 1997 года Марта Палмер и Марк Лайт организовали семинар под названием « Теги с помощью лексической семантики: почему, что и как?» совместно с Конференцией по прикладной обработке естественного языка. [6] В то время было четкое понимание того, что аннотированные вручную корпуса произвели революцию в других областях НЛП, таких как маркировка частей речи и синтаксический анализ , и что подходы, основанные на корпусе, потенциально могут совершить революцию и в автоматическом семантическом анализе. . [7] Килгаррифф напомнил, что существовала «высокая степень консенсуса в отношении того, что эта область нуждается в оценке», а несколько практических предложений Резника и Яровски положили начало дискуссии, которая привела к созданию оценочных упражнений Сенсеваля. [8] [9] [10]
После SemEval-2010 многие участники считают, что трехлетний цикл – это долгое ожидание. Многие другие общие задачи, такие как конференция по изучению естественного языка (CoNLL) и распознавание текстовых последствий (RTE), проводятся ежегодно. По этой причине координаторы SemEval предоставили организаторам задач возможность выбирать между двухлетним или трехлетним циклом. [11] Сообщество SemEval поддержало трехлетний цикл.
Хотя голоса внутри сообщества SemEval были в пользу трехлетнего цикла, организаторы и координаторы решили разделить задачу SemEval на два семинара по оценке. Этому способствовало введение новой конференции *SEM. Организаторы SemEval посчитали целесообразным связать наше мероприятие с конференцией *SEM и совместить семинар SemEval с конференцией *SEM. Организаторы получили очень положительные отзывы (от координаторов задач/организаторов и участников) об ассоциации с ежегодным *SEM, а 8 задач выразили готовность перейти на 2012 год. Так родились SemEval-2012 и SemEval-2013. Текущий план состоит в том, чтобы перейти на ежегодное расписание SemEval, чтобы связать его с конференцией *SEM, но не все задачи необходимо выполнять каждый год. [12]
Структура семинаров по оценке SemEval/Senseval имитирует конференции по анализу сообщений (MUC) и другие семинары по оценке, проводимые ARPA (Агентством перспективных исследовательских проектов, переименованным в Агентство перспективных исследовательских проектов Министерства обороны (DARPA) ).
Этапы оценочных семинаров SemEval/Senseval [14]
Senseval-1 и Senseval-2 были сосредоточены на оценке систем WSD на основных языках, для которых имелся корпус и компьютеризированный словарь. Senseval-3 вышел за рамки лексем и начал оценивать системы, которые изучают более широкие области семантики, такие как семантические роли (технически известные как тета-роли в формальной семантике), преобразование логических форм (обычно семантика фраз, предложений или предложений была представлена в логические формы первого порядка ) и Senseval-3 исследовали возможности семантического анализа машинного перевода .
По мере того, как типы различных вычислительных семантических систем выходили за пределы охвата WSD, Senseval превратился в SemEval, где оценивалось больше аспектов вычислительных семантических систем.
Упражнения SemEval предоставляют механизм для изучения проблем семантического анализа текстов. Интересующим темам не хватает логической строгости, присущей формальной вычислительной семантике, пытающейся идентифицировать и охарактеризовать виды проблем, имеющих отношение к человеческому пониманию языка. Основная цель — воспроизвести человеческую обработку с помощью компьютерных систем. Задачи (показанные ниже) разрабатываются отдельными лицами и группами для решения идентифицируемых проблем, поскольку они принимают конкретную форму.
Первой важной областью семантического анализа является выявление предполагаемого значения на уровне слова (включающего идиоматические выражения). Это устранение смысловой неоднозначности слов (концепция, которая развивается от представления о том, что слова имеют дискретные значения, а скорее характеризуются способами их использования, т.е. их контекстами). Задачи в этой области включают устранение лексической выборки и всех слов, много- и межъязыковое устранение неоднозначности, а также лексическую замену. Учитывая трудности определения значений слов, другие задачи, относящиеся к этой теме, включают в себя индукцию смысла слов, приобретение подкатегорий и оценку лексических ресурсов.
Второй важной областью семантического анализа является понимание того, как различные предложения и текстовые элементы сочетаются друг с другом. Задачи в этой области включают маркировку семантических ролей, анализ семантических отношений и разрешение кореференций. Другие задачи в этой области касаются более специализированных вопросов семантического анализа, таких как обработка временной информации, разрешение метонимии и анализ настроений. Задачи в этой области имеют множество потенциальных применений, таких как извлечение информации, ответы на вопросы, обобщение документов, машинный перевод, построение тезаурусов и семантических сетей, языковое моделирование, перефразирование и распознавание текстовых следствий. В каждом из этих потенциальных приложений вклад типов семантического анализа представляет собой наиболее выдающуюся исследовательскую проблему.
Например, в задаче индукции смысла слова и устранения неоднозначности есть три отдельных этапа:
В неконтролируемой оценке WSI рассматривались два типа оценки V Measure (Rosenberg and Hirschberg, 2007) и парная F-Score (Artiles et al., 2009). Эта оценка следует за контролируемой оценкой задачи SemEval-2007 WSI (Агирре и Сороа, 2007 г.).
В таблицах ниже отражен рост семинара от Senseval до SemEval и представлен обзор того, какая область вычислительной семантики оценивалась на семинарах Senseval/SemEval.
Задача Multilingual WSD была представлена на семинаре SemEval-2013. [17] Задача направлена на оценку систем устранения неоднозначности слов в многоязычном сценарии с использованием BabelNet в качестве смыслового инвентаря. В отличие от аналогичной задачи, такой как межъязыковая WSD или задача многоязычной лексической замены , где не указан фиксированный смысловой инвентарь, многоязычный WSD использует BabelNet в качестве своего смыслового инвентаря. До разработки BabelNet задача оценки двуязычных лексических образцов WSD выполнялась в SemEval-2007 на китайско-английских битовых текстах. [18]
Межъязыковая задача WSD была представлена на семинаре по оценке SemEval-2007 и повторно предложена на семинаре SemEval-2013. [19] Чтобы облегчить интеграцию систем WSD в другие приложения обработки естественного языка (NLP), такие как машинный перевод и многоязычный поиск информации , для задачи межъязыковой оценки WSD был введен независимый от языка и основанный на знаниях подход к WSD. . Задача представляет собой неконтролируемое задание по устранению неоднозначности в смысле слова для английских существительных с помощью параллельных корпусов. Он соответствует лексически-образцовому варианту задачи Classic WSD, ограниченному только 20 многозначными существительными.
Стоит отметить, что в SemEval-2014 было только две многоязычные/межязычные задачи, а именно (i) задача L2 «Помощник по написанию», которая представляет собой межъязыковую задачу WSD, включающую английский, испанский, немецкий, французский и голландский языки, и (ii) задание «Многоязычное семантическое текстовое сходство», которое оценивает системы по английским и испанским текстам.
Основные задачи семантической оценки включают следующие области обработки естественного языка . Ожидается, что этот список будет расширяться по мере развития этой области. [20]
В следующей таблице показаны области исследований, которые были задействованы в Senseval-1 и SemEval-2014 (S относится к Senseval, а SE относится к SemEval, например S1 относится к Senseval-1, а SE07 относится к SemEval2007):
Задачи SemEval создали множество типов семантических аннотаций, каждый тип имеет различную схему. В SemEval-2015 организаторы решили сгруппировать задания в несколько треков. Эти треки относятся к типу семантических аннотаций, которых надеется достичь задача. [21] Здесь перечислены типы семантических аннотаций, используемых на семинарах SemEval:
Задача и ее распределение треков являются гибкими; задача может развиваться в отдельный трек, например, задача оценки таксономии в SemEval-2015 находилась в треке «Изучение семантических отношений» , а в SemEval-2016 есть специальный трек для семантической таксономии с новой задачей «Обогащение семантической таксономии» . [22] [23]