Автоматическое суммирование — это процесс сокращения набора данных вычислительным путем для создания подмножества ( резюме ), представляющего наиболее важную или релевантную информацию в исходном контенте. Для достижения этой цели обычно разрабатываются и применяются алгоритмы искусственного интеллекта , специализированные для различных типов данных.
Резюмирование текста обычно реализуется методами обработки естественного языка , разработанными для поиска наиболее информативных предложений в данном документе. [1] С другой стороны, визуальный контент можно резюмировать с помощью алгоритмов компьютерного зрения . Резюмирование изображений является предметом текущих исследований; существующие подходы обычно пытаются отобразить наиболее репрезентативные изображения из данной коллекции изображений или сгенерировать видео, которое включает только самое важное содержимое из всей коллекции. [2] [3] [4] Алгоритмы резюмирования видео идентифицируют и извлекают из исходного видеоконтента самые важные кадры ( ключевые кадры ) и/или самые важные сегменты видео ( ключевые снимки ), как правило, во временном порядке. [5] [6] [7] [8] Видеорезюме просто сохраняют тщательно отобранное подмножество исходных видеокадров и, следовательно, не идентичны выходным данным алгоритмов синопсиса видео , где новые видеокадры синтезируются на основе исходного видеоконтента.
В 2022 году Google Docs выпустили функцию автоматического реферирования. [9]
Существует два основных подхода к автоматическому реферированию: извлечение и абстрагирование .
Здесь контент извлекается из исходных данных, но извлеченный контент не изменяется каким-либо образом. Примерами извлеченного контента являются ключевые фразы, которые могут использоваться для «тегирования» или индексирования текстового документа, или ключевые предложения (включая заголовки), которые в совокупности составляют аннотацию, а также репрезентативные изображения или видеофрагменты, как указано выше. Для текста извлечение аналогично процессу беглого просмотра, когда резюме (если доступно), заголовки и подзаголовки, рисунки, первый и последний абзацы раздела и, по желанию, первое и последнее предложения в абзаце читаются до того, как кто-то решит прочитать весь документ подробно. [10] Другие примеры извлечения, которые включают ключевые последовательности текста с точки зрения клинической значимости (включая пациента/проблему, вмешательство и результат). [11]
Методы абстрактного реферирования генерируют новый текст, которого не было в исходном тексте. [12] Это применялось в основном для текста. Абстрактные методы создают внутреннее семантическое представление исходного контента (часто называемое языковой моделью), а затем используют это представление для создания резюме, которое ближе к тому, что мог бы выразить человек. Абстракция может преобразовывать извлеченный контент путем перефразирования разделов исходного документа, чтобы сжать текст сильнее, чем извлечение. Однако такое преобразование является вычислительно гораздо более сложным, чем извлечение, поскольку включает как обработку естественного языка , так и часто глубокое понимание области исходного текста в случаях, когда исходный документ относится к специальной области знаний. «Перефразирование» еще сложнее применять к изображениям и видео, поэтому большинство систем реферирования являются извлекающими.
Подходы, направленные на более высокое качество реферирования, основаны на комбинированном программном обеспечении и человеческих усилиях. В Machine Aided Human Summarization извлекающие методы выделяют кандидатные отрывки для включения (в которые человек добавляет или удаляет текст). В Human Aided Machine Summarization человек постобрабатывает вывод программного обеспечения таким же образом, как редактируется вывод автоматического перевода Google Translate.
В целом существует два типа задач извлекающего реферирования в зависимости от того, на чем фокусируется программа реферирования. Первый — это обобщенное реферирование , которое фокусируется на получении обобщенного резюме или аннотации коллекции (будь то документы, наборы изображений, видео, новостные статьи и т. д.). Второй — это релевантное реферированию запросу реферирование , иногда называемое реферированием на основе запроса , которое реферирует объекты, специфичные для запроса. Системы реферирования способны создавать как релевантные реферированию текстовые рефераты, так и обобщенные машинно-генерируемые рефераты в зависимости от того, что нужно пользователю.
Примером проблемы реферирования является реферирование документа, которое пытается автоматически создать аннотацию из заданного документа. Иногда кто-то может быть заинтересован в создании резюме из одного исходного документа, в то время как другие могут использовать несколько исходных документов (например, кластер статей по одной теме). Эта проблема называется реферированием нескольких документов . Связанное приложение — реферирование новостных статей. Представьте себе систему, которая автоматически собирает новостные статьи по заданной теме (из сети) и кратко представляет последние новости в виде резюме.
Резюмирование коллекции изображений — еще один пример применения автоматического резюмирования. Оно заключается в выборе репрезентативного набора изображений из большего набора изображений. [13] Резюме в этом контексте полезно для отображения наиболее репрезентативных изображений результатов в системе исследования коллекции изображений . Резюмирование видео — это связанная область, где система автоматически создает трейлер длинного видео. Это также имеет применение в потребительских или личных видео, где можно пропустить скучные или повторяющиеся действия. Аналогично, в видеонаблюдении можно извлечь важную и подозрительную активность, игнорируя все скучные и избыточные захваченные кадры.
На очень высоком уровне алгоритмы реферирования пытаются найти подмножества объектов (например, набор предложений или набор изображений), которые охватывают информацию всего набора. Это также называется основным набором . Эти алгоритмы моделируют такие понятия, как разнообразие, охват, информация и репрезентативность резюме. Методы реферирования на основе запросов дополнительно моделируют релевантность резюме запросу. Некоторые методы и алгоритмы, которые естественным образом моделируют проблемы реферирования, это TextRank и PageRank, функция субмодулярного множества , процесс детерминантной точки , максимальная предельная релевантность (MMR) и т. д .
Задача заключается в следующем. Вам дан фрагмент текста, например, статья в журнале, и вы должны составить список ключевых слов или ключевых [фраз], которые охватывают основные темы, обсуждаемые в тексте. [14] В случае исследовательских статей многие авторы предоставляют вручную назначенные ключевые слова, но в большинстве текстов отсутствуют уже существующие ключевые фразы. Например, новостные статьи редко имеют прикрепленные ключевые фразы, но было бы полезно иметь возможность автоматически делать это для ряда приложений, обсуждаемых ниже. Рассмотрим пример текста из новостной статьи:
Извлекатель ключевых фраз может выбрать «Армейский корпус инженеров», «Президент Буш», «Новый Орлеан» и «неисправные насосы для контроля за наводнениями» в качестве ключевых фраз. Они извлекаются непосредственно из текста. Напротив, абстрактная система ключевых фраз каким-то образом усваивает содержимое и генерирует ключевые фразы, которые не появляются в тексте, но больше напоминают то, что может создать человек, например, «политическая халатность» или «неадекватная защита от наводнений». Абстракция требует глубокого понимания текста , что затрудняет его использование компьютерной системой. Ключевые фразы имеют множество применений. Они могут обеспечить просмотр документов, предоставляя краткое резюме, улучшить поиск информации (если документам назначены ключевые фразы, пользователь может выполнять поиск по ключевой фразе для получения более надежных результатов, чем полнотекстовый поиск ), а также использоваться для создания индексных записей для большого текстового корпуса.
В зависимости от различной литературы и определения ключевых терминов, слов или фраз, извлечение ключевых слов является весьма смежной темой.
Начиная с работы Терни [15], многие исследователи подходили к извлечению ключевых фраз как к проблеме контролируемого машинного обучения . Имея документ, мы строим пример для каждой униграммы , биграммы и триграммы, найденной в тексте (хотя возможны и другие текстовые единицы, как обсуждается ниже). Затем мы вычисляем различные признаки, описывающие каждый пример (например, начинается ли фраза с заглавной буквы?). Мы предполагаем, что для набора учебных документов доступны известные ключевые фразы. Используя известные ключевые фразы, мы можем назначать примерам положительные или отрицательные метки. Затем мы обучаем классификатор, который может различать положительные и отрицательные примеры в зависимости от признаков. Некоторые классификаторы выполняют бинарную классификацию для тестового примера, в то время как другие назначают вероятность того, что это ключевая фраза. Например, в приведенном выше тексте мы могли бы выучить правило, которое гласит, что фразы с начальными заглавными буквами, скорее всего, будут ключевыми фразами. После обучения обучающегося мы можем выбрать ключевые фразы для тестовых документов следующим образом. Мы применяем ту же стратегию генерации примеров к тестовым документам, затем пропускаем каждый пример через обучаемый. Мы можем определить ключевые фразы, просматривая решения бинарной классификации или вероятности, возвращенные нашей обученной моделью. Если вероятности заданы, пороговое значение используется для выбора ключевых фраз. Экстракторы ключевых фраз обычно оцениваются с использованием точности и полноты . Точность измеряет, сколько из предложенных ключевых фраз на самом деле верны. Полнота измеряет, сколько из истинных ключевых фраз предложила ваша система. Эти две меры можно объединить в F-оценку, которая является гармоническим средним двух ( F = 2 PR /( P + R )). Совпадения между предложенными ключевыми фразами и известными ключевыми фразами можно проверить после стемминга или применения какой-либо другой нормализации текста.
Разработка контролируемой системы извлечения ключевых фраз включает в себя выбор из нескольких вариантов (некоторые из них применимы и к неконтролируемым). Первый выбор — как именно генерировать примеры. Терни и другие использовали все возможные униграммы, биграммы и триграммы без промежуточной пунктуации и после удаления стоп-слов. Хульт показал, что можно получить некоторое улучшение, выбрав примеры в качестве последовательностей токенов, которые соответствуют определенным шаблонам тегов частей речи. В идеале механизм генерации примеров выдает все известные помеченные ключевые фразы в качестве кандидатов, хотя часто это не так. Например, если мы используем только униграммы, биграммы и триграммы, то мы никогда не сможем извлечь известную ключевую фразу, содержащую четыре слова. Таким образом, может пострадать отзыв. Однако генерация слишком большого количества примеров также может привести к низкой точности.
Нам также необходимо создать признаки, которые описывают примеры и являются достаточно информативными, чтобы позволить обучающемуся алгоритму отличать ключевые фразы от неключевых. Обычно признаки включают в себя различные частоты терминов (сколько раз фраза появляется в текущем тексте или в более крупном корпусе), длину примера, относительное положение первого вхождения, различные булевы синтаксические признаки (например, содержит все заглавные буквы) и т. д. В статье Терни использовалось около 12 таких признаков. Халт использует сокращенный набор признаков, которые были признаны наиболее успешными в работе KEA (алгоритм извлечения ключевых фраз), полученной из основополагающей статьи Терни.
В конце концов, система должна будет вернуть список ключевых фраз для тестового документа, поэтому нам нужно иметь способ ограничить их количество. Методы ансамбля (т. е. использование голосов от нескольких классификаторов) использовались для получения числовых оценок, которые могут быть пороговыми для предоставления указанного пользователем количества ключевых фраз. Это метод, используемый Терни с деревьями решений C4.5. Халт использовал один бинарный классификатор, поэтому алгоритм обучения неявно определяет соответствующее количество.
После создания примеров и признаков нам нужен способ научиться предсказывать ключевые фразы. Можно использовать практически любой контролируемый алгоритм обучения, например, деревья решений, наивный байесовский алгоритм и индукцию правил. В случае алгоритма GenEx Терни генетический алгоритм используется для обучения параметров для алгоритма извлечения ключевой фразы, специфичного для домена. Экстрактор следует серии эвристик для определения ключевых фраз. Генетический алгоритм оптимизирует параметры для этих эвристик с учетом производительности на обучающих документах с известными ключевыми фразами.
Другой алгоритм извлечения ключевой фразы — TextRank. Хотя контролируемые методы обладают некоторыми приятными свойствами, такими как возможность создавать интерпретируемые правила для того, какие признаки характеризуют ключевую фразу, они также требуют большого количества обучающих данных . Требуется много документов с известными ключевыми фразами. Кроме того, обучение на определенном домене имеет тенденцию настраивать процесс извлечения для этого домена, поэтому полученный классификатор не обязательно является переносимым, как показывают некоторые из результатов Терни. Неконтролируемое извлечение ключевой фразы устраняет необходимость в обучающих данных. Он подходит к проблеме с другой стороны. Вместо того чтобы пытаться изучить явные признаки, характеризующие ключевые фразы, алгоритм TextRank [16] использует структуру самого текста для определения ключевых фраз, которые кажутся «центральными» для текста таким же образом, как PageRank выбирает важные веб-страницы. Напомним, это основано на понятии «престижа» или «рекомендации» из социальных сетей . Таким образом, TextRank вообще не полагается на какие-либо предыдущие данные обучения, а может быть запущен на любом произвольном фрагменте текста и может выдавать результат просто на основе внутренних свойств текста. Таким образом, алгоритм легко переносим на новые домены и языки.
TextRank — это алгоритм ранжирования на основе графов общего назначения для обработки естественного языка . По сути, он запускает PageRank на графе, специально разработанном для конкретной задачи обработки естественного языка. Для извлечения ключевой фразы он строит граф, используя некоторый набор текстовых единиц в качестве вершин. Ребра основаны на некоторой мере семантического или лексического сходства между вершинами текстовых единиц. В отличие от PageRank, ребра обычно ненаправленные и могут быть взвешены для отражения степени сходства. После построения графа он используется для формирования стохастической матрицы в сочетании с коэффициентом затухания (как в «модели случайного серфера»), а ранжирование по вершинам получается путем нахождения собственного вектора, соответствующего собственному значению 1 (т. е. стационарного распределения случайного блуждания на графе).
Вершины должны соответствовать тому, что мы хотим ранжировать. Потенциально мы могли бы сделать что-то похожее на контролируемые методы и создать вершину для каждой униграммы, биграммы, триграммы и т. д. Однако, чтобы граф оставался небольшим, авторы решили ранжировать отдельные униграммы на первом шаге, а затем включить второй шаг, который объединяет высокоранжированные смежные униграммы для формирования многословных фраз. Это имеет приятный побочный эффект, позволяя нам создавать ключевые фразы произвольной длины. Например, если мы ранжируем униграммы и обнаруживаем, что «продвинутый», «естественный», «язык» и «обработка» все получают высокие ранги, то мы бы посмотрели на исходный текст и увидели, что эти слова появляются последовательно, и создали бы окончательную ключевую фразу, используя все четыре вместе. Обратите внимание, что униграммы, размещенные в графе, можно фильтровать по части речи. Авторы обнаружили, что прилагательные и существительные были лучшими для включения. Таким образом, на этом шаге в игру вступают некоторые лингвистические знания.
Ребра создаются на основе совместной встречаемости слов в этом приложении TextRank. Две вершины соединяются ребром, если униграммы появляются в окне размера N в исходном тексте. N обычно составляет около 2–10. Таким образом, «естественный» и «язык» могут быть связаны в тексте о NLP. «Естественный» и «обработка» также будут связаны, поскольку они оба будут появляться в одной строке из N слов. Эти ребра основываются на понятии « сплоченности текста » и идее о том, что слова, которые появляются рядом друг с другом, вероятно, связаны значимым образом и «рекомендуют» друг друга читателю.
Поскольку этот метод просто ранжирует отдельные вершины, нам нужен способ порогового значения или создания ограниченного количества ключевых фраз. Выбранная методика заключается в установке количества T в качестве указанной пользователем доли от общего количества вершин в графе. Затем верхние T вершин/униграмм выбираются на основе их стационарных вероятностей. Затем применяется шаг постобработки для объединения смежных экземпляров этих T униграмм. В результате потенциально будет создано больше или меньше, чем T окончательных ключевых фраз, но это количество должно быть примерно пропорционально длине исходного текста.
Изначально не ясно, почему применение PageRank к графу совместной встречаемости приведет к созданию полезных ключевых фраз. Один из способов думать об этом заключается в следующем. Слово, которое встречается несколько раз в тексте, может иметь много разных соседей, которые встречаются одновременно. Например, в тексте о машинном обучении униграмма «learning» может встречаться вместе с «machine», «supervised», «un-supervised» и «semi-supervised» в четырех разных предложениях. Таким образом, вершина «learning» будет центральным «узлом», который соединяется с этими другими модифицирующими словами. Запуск PageRank/TextRank на графе, скорее всего, высоко ранжирует «learning». Аналогично, если текст содержит фразу «supervised classification», то будет ребро между «supervised» и «classification». Если «classification» встречается в нескольких других местах и, таким образом, имеет много соседей, его важность будет способствовать важности «supervised». Если он получит высокий рейтинг, он будет выбран в качестве одной из лучших униграмм T, наряду с «обучением» и, возможно, «классификацией». На последнем этапе постобработки мы получим ключевые фразы «обучение под контролем» и «классификация под контролем».
Короче говоря, граф совместной встречаемости будет содержать плотно связанные области для терминов, которые появляются часто и в разных контекстах. Случайное блуждание по этому графу будет иметь стационарное распределение, которое назначает большие вероятности терминам в центрах кластеров. Это похоже на то, как плотно связанные веб-страницы получают высокий рейтинг по PageRank. Этот подход также использовался в реферировании документов, рассмотренном ниже.
Как и извлечение ключевых фраз, резюмирование документа направлено на выявление сути текста. Единственное реальное отличие заключается в том, что теперь мы имеем дело с более крупными текстовыми единицами — целыми предложениями, а не словами и фразами.
Контролируемое реферирование текста очень похоже на контролируемое извлечение ключевых фраз. По сути, если у вас есть коллекция документов и созданные человеком рефераты для них, вы можете узнать особенности предложений, которые делают их хорошими кандидатами для включения в реферат. Особенности могут включать положение в документе (т. е. первые несколько предложений, вероятно, важны), количество слов в предложении и т. д. Основная сложность контролируемого извлекаемого реферата заключается в том, что известные рефераты должны быть созданы вручную путем извлечения предложений, чтобы предложения в исходном учебном документе могли быть помечены как «в реферате» или «не в реферате». Обычно люди не создают рефераты таким образом, поэтому простого использования журнальных аннотаций или существующих рефератов обычно недостаточно. Предложения в этих рефератах не обязательно совпадают с предложениями в исходном тексте, поэтому было бы сложно назначать метки примерам для обучения. Однако следует отметить, что эти естественные рефераты все еще можно использовать для целей оценки, поскольку оценка ROUGE-1 учитывает только униграммы.
Во время оценочных семинаров DUC 2001 и 2002 годов TNO разработала систему извлечения предложений для реферирования нескольких документов в области новостей. Система была основана на гибридной системе, использующей наивный байесовский классификатор и статистические языковые модели для моделирования значимости. Хотя система показала хорошие результаты, исследователи хотели изучить эффективность классификатора максимальной энтропии (ME) для задачи реферирования встреч, поскольку известно, что ME устойчив к зависимостям признаков. Максимальная энтропия также успешно применялась для реферирования в области новостей вещания.
Перспективным подходом является адаптивное реферирование документа/текста. [17] Оно включает в себя сначала распознавание жанра текста, а затем применение алгоритмов реферирования, оптимизированных для этого жанра. Такое программное обеспечение было создано. [18]
Неконтролируемый подход к резюмированию также весьма схож по духу с неконтролируемым извлечением ключевых фраз и обходит проблему дорогостоящих обучающих данных. Некоторые неконтролируемые подходы к резюмированию основаны на поиске " центроидного " предложения, которое является средним вектором слов всех предложений в документе. Затем предложения можно ранжировать с учетом их сходства с этим центроидным предложением.
Более принципиальный способ оценки важности предложений — использование случайных блужданий и центральности собственных векторов. LexRank [19] — это алгоритм, по сути идентичный TextRank, и оба используют этот подход для резюмирования документов. Оба метода были разработаны разными группами в одно и то же время, и LexRank просто фокусировался на резюмировании, но его можно было бы с таким же успехом использовать для извлечения ключевых фраз или любой другой задачи ранжирования NLP.
В LexRank и TextRank граф строится путем создания вершины для каждого предложения в документе.
Ребра между предложениями основаны на некоторой форме семантического сходства или перекрытия контента. В то время как LexRank использует косинусное сходство векторов TF-IDF , TextRank использует очень похожую меру, основанную на количестве общих слов в двух предложениях ( нормализованную по длине предложений). В статье LexRank исследовалось использование невзвешенных ребер после применения порогового значения к значениям косинуса, но также экспериментировалось с использованием ребер с весами, равными оценке сходства. TextRank использует непрерывные оценки сходства в качестве весов.
В обоих алгоритмах предложения ранжируются путем применения PageRank к полученному графику. Сводка формируется путем объединения предложений с самым высоким рейтингом, используя порог или ограничение длины для ограничения размера сводки.
Стоит отметить, что TextRank применялся к резюмированию точно так, как описано здесь, в то время как LexRank использовался как часть более крупной системы резюмирования (MEAD), которая объединяет оценку LexRank (стационарную вероятность) с другими функциями, такими как положение и длина предложения, используя линейную комбинацию с указанными пользователем или автоматически настроенными весами. В этом случае могут потребоваться некоторые учебные документы, хотя результаты TextRank показывают, что дополнительные функции не являются абсолютно необходимыми.
В отличие от TextRank, LexRank применяется для реферирования нескольких документов.
Резюмирование нескольких документов — это автоматическая процедура, направленная на извлечение информации из нескольких текстов, написанных по одной теме. Полученный в результате сводный отчет позволяет отдельным пользователям, таким как профессиональные потребители информации, быстро ознакомиться с информацией, содержащейся в большом кластере документов. Таким образом, системы резюмирования нескольких документов дополняют новостные агрегаторы , выполняя следующий шаг на пути к преодолению информационной перегрузки . Резюмирование нескольких документов также может быть выполнено в ответ на вопрос. [20] [11]
Резюмирование нескольких документов создает информационные отчеты, которые являются как краткими, так и всеобъемлющими. При объединении и изложении различных мнений каждая тема описывается с нескольких точек зрения в одном документе. В то время как цель краткого резюме — упростить поиск информации и сократить время, указав на наиболее релевантные исходные документы, полное резюме нескольких документов должно само содержать требуемую информацию, тем самым ограничивая необходимость доступа к исходным файлам в случаях, когда требуется уточнение. Автоматические резюме представляют информацию, извлеченную из нескольких источников, алгоритмически, без какого-либо редакторского прикосновения или субъективного человеческого вмешательства, что делает ее полностью беспристрастной. [ dubious – discussion ]
Многодокументное извлекающее реферирование сталкивается с проблемой избыточности. В идеале мы хотим извлечь предложения, которые являются как «центральными» (т. е. содержат основные идеи), так и «разнообразными» (т. е. отличаются друг от друга). Например, в наборе новостных статей о каком-то событии каждая статья, скорее всего, будет иметь много похожих предложений. Чтобы решить эту проблему, LexRank применяет эвристический шаг постобработки, который добавляет предложения в порядке ранжирования, но отбрасывает предложения, которые слишком похожи на те, которые уже есть в резюме. Этот метод называется Cross-Sentence Information Subsumption (CSIS). Эти методы работают на основе идеи, что предложения «рекомендуют» читателю другие похожие предложения. Таким образом, если одно предложение очень похоже на многие другие, оно, скорее всего, будет предложением большой важности. Его важность также вытекает из важности предложений, «рекомендующих» его. Таким образом, чтобы получить высокий рейтинг и место в резюме, предложение должно быть похоже на многие предложения, которые, в свою очередь, также похожи на многие другие предложения. Это интуитивно понятно и позволяет применять алгоритмы к произвольному новому тексту. Методы не зависят от домена и легко переносимы. Можно представить, что признаки, указывающие на важные предложения в новостной области, могут значительно отличаться от биомедицинской области. Однако неконтролируемый подход на основе «рекомендаций» применим к любой области.
Связанный метод — это метод максимальной предельной релевантности (MMR), [21] , который использует алгоритм ранжирования на основе графов общего назначения, такой как Page/Lex/TextRank, который обрабатывает как «центральность», так и «разнообразие» в единой математической структуре, основанной на поглощении случайных блужданий цепи Маркова (случайное блуждание, когда определенные состояния заканчивают блуждание). Алгоритм называется GRASSHOPPER. [22] В дополнение к явному содействию разнообразию в процессе ранжирования, GRASSHOPPER включает в себя предварительное ранжирование (основанное на позиции предложения в случае резюмирования).
Результаты, соответствующие современным требованиям, для многодокументного реферирования получены с использованием смесей субмодулярных функций. Эти методы достигли результатов, соответствующих современным требованиям, для Document Summarization Corpora, DUC 04 - 07. [23] Аналогичные результаты были получены с использованием детерминантных точечных процессов (которые являются частным случаем субмодулярных функций) для DUC-04. [24]
Новый метод многоязычного многодокументного реферирования, который избегает избыточности, генерирует идеограммы для представления смысла каждого предложения в каждом документе, затем оценивает сходство, сравнивая форму и положение идеограммы. Он не использует частоту слов, обучение или предварительную обработку. Он использует два параметра, предоставляемых пользователем: эквивалентность (когда два предложения считаются эквивалентными?) и релевантность (какова длина желаемого реферата?).
Идея субмодулярной функции множества недавно появилась как мощный инструмент моделирования для различных задач реферирования. Субмодулярные функции естественным образом моделируют понятия покрытия , информации , представления и разнообразия . Более того, несколько важных задач комбинаторной оптимизации возникают как особые случаи субмодулярной оптимизации. Например, задача покрытия множеств является особым случаем субмодулярной оптимизации, поскольку функция покрытия множеств является субмодулярной. Функция покрытия множеств пытается найти подмножество объектов, которые охватывают заданный набор концепций. Например, при реферировании документов хотелось бы, чтобы резюме охватывало все важные и релевантные концепции в документе. Это случай покрытия множеств. Аналогично, задача расположения объектов является особым случаем субмодулярных функций. Функция расположения объектов также естественным образом моделирует покрытие и разнообразие. Другим примером задачи субмодулярной оптимизации является использование детерминантного точечного процесса для моделирования разнообразия. Аналогично, процедура максимальной предельной релевантности также может рассматриваться как случай субмодулярной оптимизации. Все эти важные модели, способствующие покрытию, разнообразию и информации, являются субмодулярными. Более того, субмодулярные функции можно эффективно комбинировать, и результирующая функция все еще будет субмодулярной. Таким образом, можно объединить одну субмодулярную функцию, которая моделирует разнообразие, другую, которая моделирует покрытие, и использовать человеческое наблюдение, чтобы изучить правильную модель субмодулярной функции для проблемы.
Хотя субмодулярные функции подходят для задач суммирования, они также допускают очень эффективные алгоритмы оптимизации. Например, простой жадный алгоритм допускает постоянную гарантию множителя. [25] Более того, жадный алгоритм чрезвычайно прост в реализации и может масштабироваться до больших наборов данных, что очень важно для задач суммирования.
Субмодулярные функции достигли уровня искусства почти для всех проблем реферирования. Например, работа Лин и Билмеса, 2012 [26] показывает, что субмодулярные функции достигают наилучших результатов на сегодняшний день в системах DUC-04, DUC-05, DUC-06 и DUC-07 для реферирования документов. Аналогично, работа Лин и Билмеса, 2011, [27] показывает, что многие существующие системы для автоматического реферирования являются примерами субмодулярных функций. Это был прорывной результат, устанавливающий субмодулярные функции как правильные модели для проблем реферирования. [ необходима цитата ]
Субмодулярные функции также использовались для других задач резюмирования. Tschiatschek et al., 2014 показывают [28] , что смеси субмодулярных функций достигают самых современных результатов для резюмирования коллекций изображений. Аналогично, Bairi et al., 2015 [29] показывают полезность субмодулярных функций для резюмирования иерархий тем из нескольких документов. Субмодулярные функции также успешно использовались для резюмирования наборов данных машинного обучения. [30]
Конкретные применения автоматического реферирования включают в себя:
Наиболее распространенный способ оценки информативности автоматических сводок — это сравнение их с модельными сводками, созданными человеком.
Оценка может быть внутренней или внешней, [36] а также интертекстуальной или внутритекстовой. [37]
Внутренняя оценка оценивает резюме напрямую, в то время как внешняя оценка оценивает, как система реферирования влияет на выполнение какой-либо другой задачи. Внутренняя оценка оценивала в основном связность и информативность резюме. Внешняя оценка, с другой стороны, проверяла влияние реферирования на такие задачи, как оценка релевантности, понимание прочитанного и т. д.
Внутритекстовая оценка оценивает результат работы конкретной системы реферирования, в то время как интертекстовая оценка фокусируется на сопоставительном анализе результатов работы нескольких систем реферирования.
Человеческое суждение часто сильно различается в том, что оно считает "хорошим" резюме, поэтому создание автоматического процесса оценки особенно сложно. Можно использовать ручную оценку, но это требует времени и труда, так как требует, чтобы люди читали не только резюме, но и исходные документы. Другие проблемы касаются согласованности и охвата.
Наиболее распространенным способом оценки резюме является ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Он очень распространен для систем реферирования и перевода на конференциях NIST по пониманию документов.[2] ROUGE — это основанная на отзыве мера того, насколько хорошо резюме охватывает содержание созданных человеком резюме, известных как ссылки. Она вычисляет перекрытия n-грамм между автоматически созданными резюме и ранее написанными людьми резюме. Она основана на отзыве, чтобы поощрять включение всех важных тем в резюме. Отзыв может быть вычислен относительно соответствия униграмм, биграмм, триграмм или 4-грамм. Например, ROUGE-1 — это доля униграмм, которые появляются как в референтном резюме, так и в автоматическом резюме, из всех униграмм в референтном резюме. Если есть несколько референтных резюме, их баллы усредняются. Высокий уровень перекрытия должен указывать на высокую степень общих концепций между двумя резюме.
ROUGE не может определить, является ли результат связным, то есть предложения лиются вместе в разумной последовательности. Высокопорядковые n-граммные меры ROUGE помогают в некоторой степени.
Еще одна нерешенная проблема — разрешение анафоры . Аналогично, для суммирования изображений, Tschiatschek et al. разработали оценку Visual-ROUGE, которая оценивает производительность алгоритмов суммирования изображений. [38]
Методы реферирования, независимые от домена, применяют наборы общих признаков для идентификации информационно-богатых текстовых сегментов. Недавние исследования фокусируются на реферировании, специфичном для домена, с использованием знаний, характерных для домена текста, таких как медицинские знания и онтологии для реферирования медицинских текстов. [39]
Основным недостатком систем оценки на данный момент является то, что нам требуется справочное резюме (для некоторых методов более одного), чтобы сравнивать автоматические резюме с моделями. Это сложная и дорогая задача. Необходимо приложить много усилий для создания корпусов текстов и соответствующих им резюме. Кроме того, некоторые методы требуют ручного аннотирования резюме (например, SCU в методе пирамиды). Более того, все они выполняют количественную оценку с учетом различных метрик сходства.
Первая публикация в этой области датируется 1957 годом [40] ( Ханс Петер Лун ), начиная со статистического метода. Исследования значительно возросли в 2015 году. Частота термина - обратная частота документа использовалась к 2016 году. Резюмирование на основе шаблонов было самым мощным вариантом для резюмирования нескольких документов, найденным к 2016 году. В следующем году его превзошел латентный семантический анализ (LSA) в сочетании с неотрицательной матричной факторизацией (NMF). Хотя они не заменили другие подходы и часто сочетаются с ними, к 2019 году методы машинного обучения доминировали в извлеченном резюмировании отдельных документов, которое считалось приближающимся к зрелости. К 2020 году эта область все еще была очень активной, и исследования смещаются в сторону абстрактного суммирования и резюмирования в реальном времени. [41]
В последнее время рост моделей-трансформеров, заменяющих более традиционные RNN ( LSTM ), обеспечил гибкость в отображении текстовых последовательностей в текстовые последовательности другого типа, что хорошо подходит для автоматического реферирования. Сюда входят такие модели, как T5 [42] и Pegasus. [43]
{{cite book}}
: CS1 maint: отсутствует местоположение издателя ( ссылка ){{cite web}}
: CS1 maint: архивная копия как заголовок ( ссылка ) CS1 maint: бот: исходный статус URL неизвестен ( ссылка ){{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ), Алгоритм GRASSHOPPER{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ), Концептуальные структуры для исследований и образования в области STEM.