Метрика, используемая для тестирования моделей НЛП.
ROUGE , или Recall-Oriented Understudy for Gisting Evaluation , [1] представляет собой набор показателей и пакет программного обеспечения, используемый для оценки программного обеспечения автоматического реферирования и машинного перевода при обработке естественного языка . Метрики сравнивают автоматически созданное резюме или перевод со ссылкой или набором ссылок (созданных человеком) резюме или перевода. Показатели ROUGE варьируются от 0 до 1, причем более высокие баллы указывают на большее сходство между автоматически созданным резюме и ссылкой.
Метрики
Доступны следующие пять показателей оценки.
- ROUGE-N: Перекрытие n-грамм [2] между системными и справочными сводками.
- ROUGE-1 относится к перекрытию униграмм (каждого слова) между системой и справочными сводками.
- ROUGE-2 относится к перекрытию биграмм между системой и справочными сводками.
- ROUGE-L: статистика на основе самой длинной общей подпоследовательности (LCS) [3] . Задача о самой длинной общей подпоследовательности естественным образом учитывает сходство структуры на уровне предложения и автоматически определяет самые длинные совпадающие в последовательности n-граммы.
- ROUGE-W: Взвешенная статистика на основе LCS, отдающая предпочтение последовательным LCS.
- ROUGE-S: Статистика совместной встречаемости на основе Skip- bigram [3] . Скип-биграмма — это любая пара слов в порядке их предложения.
- РУЖ-СУ: статистика совместного появления на основе пропуска-биграммы и униграммы.
Смотрите также
Рекомендации
- ^ Лин, Чин-Ю. 2004. ROUGE: пакет для автоматической оценки резюме. В материалах семинара по разветвлениям обобщения текста (WAS 2004), Барселона, Испания, 25–26 июля 2004 г.
- ^ Лин, Чин-Ю и Э. Х. Хови, 2003. Автоматическая оценка сводок с использованием статистики совместного появления N-грамм. В материалах конференции по языковым технологиям 2003 г. (HLT-NAACL 2003), Эдмонтон, Канада, 27 мая - 1 июня 2003 г.
- ^ Аб Лин, Чин-Ю и Франц Йозеф Ох. 2004. Автоматическая оценка качества машинного перевода с использованием статистики наибольшей общей подпоследовательности и пропуска биграмм. В материалах 42-го ежегодного собрания Ассоциации компьютерной лингвистики (ACL 2004), Барселона, Испания, 21–26 июля 2004 г.
Внешние ссылки
- Руководство по использованию ROUGE
- Java-реализация ROUGE