stringtranslate.com

Автоматическое суммирование

Автоматическое суммирование — это процесс сокращения набора данных вычислительным путем для создания подмножества ( резюме ), представляющего наиболее важную или релевантную информацию в исходном контенте. Для достижения этой цели обычно разрабатываются и применяются алгоритмы искусственного интеллекта , специализированные для различных типов данных.

Резюмирование текста обычно реализуется методами обработки естественного языка , разработанными для поиска наиболее информативных предложений в данном документе. [1] С другой стороны, визуальный контент можно резюмировать с помощью алгоритмов компьютерного зрения . Резюмирование изображений является предметом текущих исследований; существующие подходы обычно пытаются отобразить наиболее репрезентативные изображения из данной коллекции изображений или сгенерировать видео, которое включает только самое важное содержимое из всей коллекции. [2] [3] [4] Алгоритмы резюмирования видео идентифицируют и извлекают из исходного видеоконтента самые важные кадры ( ключевые кадры ) и/или самые важные сегменты видео ( ключевые снимки ), как правило, во временном порядке. [5] [6] [7] [8] Видеорезюме просто сохраняют тщательно отобранное подмножество исходных видеокадров и, следовательно, не идентичны выходным данным алгоритмов синопсиса видео , где новые видеокадры синтезируются на основе исходного видеоконтента.

Коммерческая продукция

В 2022 году Google Docs выпустили функцию автоматического реферирования. [9]

Подходы

Существует два основных подхода к автоматическому реферированию: извлечение и абстрагирование .

Резюмирование на основе извлечения

Здесь контент извлекается из исходных данных, но извлеченный контент не изменяется каким-либо образом. Примерами извлеченного контента являются ключевые фразы, которые могут использоваться для «тегирования» или индексирования текстового документа, или ключевые предложения (включая заголовки), которые в совокупности составляют аннотацию, а также репрезентативные изображения или видеофрагменты, как указано выше. Для текста извлечение аналогично процессу беглого просмотра, когда резюме (если доступно), заголовки и подзаголовки, рисунки, первый и последний абзацы раздела и, по желанию, первое и последнее предложения в абзаце читаются до того, как кто-то решит прочитать весь документ подробно. [10] Другие примеры извлечения, которые включают ключевые последовательности текста с точки зрения клинической значимости (включая пациента/проблему, вмешательство и результат). [11]

Резюмирование на основе абстракции

Методы абстрактного реферирования генерируют новый текст, которого не было в исходном тексте. [12] Это применялось в основном для текста. Абстрактные методы создают внутреннее семантическое представление исходного контента (часто называемое языковой моделью), а затем используют это представление для создания резюме, которое ближе к тому, что мог бы выразить человек. Абстракция может преобразовывать извлеченный контент путем перефразирования разделов исходного документа, чтобы сжать текст сильнее, чем извлечение. Однако такое преобразование является вычислительно гораздо более сложным, чем извлечение, поскольку включает как обработку естественного языка , так и часто глубокое понимание области исходного текста в случаях, когда исходный документ относится к специальной области знаний. «Перефразирование» еще сложнее применять к изображениям и видео, поэтому большинство систем реферирования являются извлекающими.

Вспомогательное обобщение

Подходы, направленные на более высокое качество реферирования, основаны на комбинированном программном обеспечении и человеческих усилиях. В Machine Aided Human Summarization извлекающие методы выделяют кандидатные отрывки для включения (в которые человек добавляет или удаляет текст). В Human Aided Machine Summarization человек постобрабатывает вывод программного обеспечения таким же образом, как редактируется вывод автоматического перевода Google Translate.

Приложения и системы для реферирования

В целом существует два типа задач извлекающего реферирования в зависимости от того, на чем фокусируется программа реферирования. Первый — это обобщенное реферирование , которое фокусируется на получении обобщенного резюме или аннотации коллекции (будь то документы, наборы изображений, видео, новостные статьи и т. д.). Второй — это релевантное реферированию запросу реферирование , иногда называемое реферированием на основе запроса , которое реферирует объекты, специфичные для запроса. Системы реферирования способны создавать как релевантные реферированию текстовые рефераты, так и обобщенные машинно-генерируемые рефераты в зависимости от того, что нужно пользователю.

Примером проблемы реферирования является реферирование документа, которое пытается автоматически создать аннотацию из заданного документа. Иногда кто-то может быть заинтересован в создании резюме из одного исходного документа, в то время как другие могут использовать несколько исходных документов (например, кластер статей по одной теме). Эта проблема называется реферированием нескольких документов . Связанное приложение — реферирование новостных статей. Представьте себе систему, которая автоматически собирает новостные статьи по заданной теме (из сети) и кратко представляет последние новости в виде резюме.

Резюмирование коллекции изображений — еще один пример применения автоматического резюмирования. Оно заключается в выборе репрезентативного набора изображений из большего набора изображений. [13] Резюме в этом контексте полезно для отображения наиболее репрезентативных изображений результатов в системе исследования коллекции изображений . Резюмирование видео — это связанная область, где система автоматически создает трейлер длинного видео. Это также имеет применение в потребительских или личных видео, где можно пропустить скучные или повторяющиеся действия. Аналогично, в видеонаблюдении можно извлечь важную и подозрительную активность, игнорируя все скучные и избыточные захваченные кадры.

На очень высоком уровне алгоритмы реферирования пытаются найти подмножества объектов (например, набор предложений или набор изображений), которые охватывают информацию всего набора. Это также называется основным набором . Эти алгоритмы моделируют такие понятия, как разнообразие, охват, информация и репрезентативность резюме. Методы реферирования на основе запросов дополнительно моделируют релевантность резюме запросу. Некоторые методы и алгоритмы, которые естественным образом моделируют проблемы реферирования, это TextRank и PageRank, функция субмодулярного множества , процесс детерминантной точки , максимальная предельная релевантность (MMR) и т. д .

Извлечение ключевой фразы

Задача заключается в следующем. Вам дан фрагмент текста, например, статья в журнале, и вы должны составить список ключевых слов или ключевых [фраз], которые охватывают основные темы, обсуждаемые в тексте. [14] В случае исследовательских статей многие авторы предоставляют вручную назначенные ключевые слова, но в большинстве текстов отсутствуют уже существующие ключевые фразы. Например, новостные статьи редко имеют прикрепленные ключевые фразы, но было бы полезно иметь возможность автоматически делать это для ряда приложений, обсуждаемых ниже. Рассмотрим пример текста из новостной статьи:

«Согласно документам, полученным агентством Associated Press, Инженерный корпус армии, торопясь выполнить обещание президента Буша защитить Новый Орлеан к началу сезона ураганов 2006 года, в прошлом году установил неисправные насосы для борьбы с наводнениями, несмотря на предупреждения собственного эксперта о том, что оборудование выйдет из строя во время шторма».

Извлекатель ключевых фраз может выбрать «Армейский корпус инженеров», «Президент Буш», «Новый Орлеан» и «неисправные насосы для контроля за наводнениями» в качестве ключевых фраз. Они извлекаются непосредственно из текста. Напротив, абстрактная система ключевых фраз каким-то образом усваивает содержимое и генерирует ключевые фразы, которые не появляются в тексте, но больше напоминают то, что может создать человек, например, «политическая халатность» или «неадекватная защита от наводнений». Абстракция требует глубокого понимания текста , что затрудняет его использование компьютерной системой. Ключевые фразы имеют множество применений. Они могут обеспечить просмотр документов, предоставляя краткое резюме, улучшить поиск информации (если документам назначены ключевые фразы, пользователь может выполнять поиск по ключевой фразе для получения более надежных результатов, чем полнотекстовый поиск ), а также использоваться для создания индексных записей для большого текстового корпуса.

В зависимости от различной литературы и определения ключевых терминов, слов или фраз, извлечение ключевых слов является весьма смежной темой.

Подходы к контролируемому обучению

Начиная с работы Терни [15], многие исследователи подходили к извлечению ключевых фраз как к проблеме контролируемого машинного обучения . Имея документ, мы строим пример для каждой униграммы , биграммы и триграммы, найденной в тексте (хотя возможны и другие текстовые единицы, как обсуждается ниже). Затем мы вычисляем различные признаки, описывающие каждый пример (например, начинается ли фраза с заглавной буквы?). Мы предполагаем, что для набора учебных документов доступны известные ключевые фразы. Используя известные ключевые фразы, мы можем назначать примерам положительные или отрицательные метки. Затем мы обучаем классификатор, который может различать положительные и отрицательные примеры в зависимости от признаков. Некоторые классификаторы выполняют бинарную классификацию для тестового примера, в то время как другие назначают вероятность того, что это ключевая фраза. Например, в приведенном выше тексте мы могли бы выучить правило, которое гласит, что фразы с начальными заглавными буквами, скорее всего, будут ключевыми фразами. После обучения обучающегося мы можем выбрать ключевые фразы для тестовых документов следующим образом. Мы применяем ту же стратегию генерации примеров к тестовым документам, затем пропускаем каждый пример через обучаемый. Мы можем определить ключевые фразы, просматривая решения бинарной классификации или вероятности, возвращенные нашей обученной моделью. Если вероятности заданы, пороговое значение используется для выбора ключевых фраз. Экстракторы ключевых фраз обычно оцениваются с использованием точности и полноты . Точность измеряет, сколько из предложенных ключевых фраз на самом деле верны. Полнота измеряет, сколько из истинных ключевых фраз предложила ваша система. Эти две меры можно объединить в F-оценку, которая является гармоническим средним двух ( F  = 2 PR /( P  +  R )). Совпадения между предложенными ключевыми фразами и известными ключевыми фразами можно проверить после стемминга или применения какой-либо другой нормализации текста.

Разработка контролируемой системы извлечения ключевых фраз включает в себя выбор из нескольких вариантов (некоторые из них применимы и к неконтролируемым). Первый выбор — как именно генерировать примеры. Терни и другие использовали все возможные униграммы, биграммы и триграммы без промежуточной пунктуации и после удаления стоп-слов. Хульт показал, что можно получить некоторое улучшение, выбрав примеры в качестве последовательностей токенов, которые соответствуют определенным шаблонам тегов частей речи. В идеале механизм генерации примеров выдает все известные помеченные ключевые фразы в качестве кандидатов, хотя часто это не так. Например, если мы используем только униграммы, биграммы и триграммы, то мы никогда не сможем извлечь известную ключевую фразу, содержащую четыре слова. Таким образом, может пострадать отзыв. Однако генерация слишком большого количества примеров также может привести к низкой точности.

Нам также необходимо создать признаки, которые описывают примеры и являются достаточно информативными, чтобы позволить обучающемуся алгоритму отличать ключевые фразы от неключевых. Обычно признаки включают в себя различные частоты терминов (сколько раз фраза появляется в текущем тексте или в более крупном корпусе), длину примера, относительное положение первого вхождения, различные булевы синтаксические признаки (например, содержит все заглавные буквы) и т. д. В статье Терни использовалось около 12 таких признаков. Халт использует сокращенный набор признаков, которые были признаны наиболее успешными в работе KEA (алгоритм извлечения ключевых фраз), полученной из основополагающей статьи Терни.

В конце концов, система должна будет вернуть список ключевых фраз для тестового документа, поэтому нам нужно иметь способ ограничить их количество. Методы ансамбля (т. е. использование голосов от нескольких классификаторов) использовались для получения числовых оценок, которые могут быть пороговыми для предоставления указанного пользователем количества ключевых фраз. Это метод, используемый Терни с деревьями решений C4.5. Халт использовал один бинарный классификатор, поэтому алгоритм обучения неявно определяет соответствующее количество.

После создания примеров и признаков нам нужен способ научиться предсказывать ключевые фразы. Можно использовать практически любой контролируемый алгоритм обучения, например, деревья решений, наивный байесовский алгоритм и индукцию правил. В случае алгоритма GenEx Терни генетический алгоритм используется для обучения параметров для алгоритма извлечения ключевой фразы, специфичного для домена. Экстрактор следует серии эвристик для определения ключевых фраз. Генетический алгоритм оптимизирует параметры для этих эвристик с учетом производительности на обучающих документах с известными ключевыми фразами.

Неконтролируемый подход: TextRank

Другой алгоритм извлечения ключевой фразы — TextRank. Хотя контролируемые методы обладают некоторыми приятными свойствами, такими как возможность создавать интерпретируемые правила для того, какие признаки характеризуют ключевую фразу, они также требуют большого количества обучающих данных . Требуется много документов с известными ключевыми фразами. Кроме того, обучение на определенном домене имеет тенденцию настраивать процесс извлечения для этого домена, поэтому полученный классификатор не обязательно является переносимым, как показывают некоторые из результатов Терни. Неконтролируемое извлечение ключевой фразы устраняет необходимость в обучающих данных. Он подходит к проблеме с другой стороны. Вместо того чтобы пытаться изучить явные признаки, характеризующие ключевые фразы, алгоритм TextRank [16] использует структуру самого текста для определения ключевых фраз, которые кажутся «центральными» для текста таким же образом, как PageRank выбирает важные веб-страницы. Напомним, это основано на понятии «престижа» или «рекомендации» из социальных сетей . Таким образом, TextRank вообще не полагается на какие-либо предыдущие данные обучения, а может быть запущен на любом произвольном фрагменте текста и может выдавать результат просто на основе внутренних свойств текста. Таким образом, алгоритм легко переносим на новые домены и языки.

TextRank — это алгоритм ранжирования на основе графов общего назначения для обработки естественного языка . По сути, он запускает PageRank на графе, специально разработанном для конкретной задачи обработки естественного языка. Для извлечения ключевой фразы он строит граф, используя некоторый набор текстовых единиц в качестве вершин. Ребра основаны на некоторой мере семантического или лексического сходства между вершинами текстовых единиц. В отличие от PageRank, ребра обычно ненаправленные и могут быть взвешены для отражения степени сходства. После построения графа он используется для формирования стохастической матрицы в сочетании с коэффициентом затухания (как в «модели случайного серфера»), а ранжирование по вершинам получается путем нахождения собственного вектора, соответствующего собственному значению 1 (т. е. стационарного распределения случайного блуждания на графе).

Вершины должны соответствовать тому, что мы хотим ранжировать. Потенциально мы могли бы сделать что-то похожее на контролируемые методы и создать вершину для каждой униграммы, биграммы, триграммы и т. д. Однако, чтобы граф оставался небольшим, авторы решили ранжировать отдельные униграммы на первом шаге, а затем включить второй шаг, который объединяет высокоранжированные смежные униграммы для формирования многословных фраз. Это имеет приятный побочный эффект, позволяя нам создавать ключевые фразы произвольной длины. Например, если мы ранжируем униграммы и обнаруживаем, что «продвинутый», «естественный», «язык» и «обработка» все получают высокие ранги, то мы бы посмотрели на исходный текст и увидели, что эти слова появляются последовательно, и создали бы окончательную ключевую фразу, используя все четыре вместе. Обратите внимание, что униграммы, размещенные в графе, можно фильтровать по части речи. Авторы обнаружили, что прилагательные и существительные были лучшими для включения. Таким образом, на этом шаге в игру вступают некоторые лингвистические знания.

Ребра создаются на основе совместной встречаемости слов в этом приложении TextRank. Две вершины соединяются ребром, если униграммы появляются в окне размера N в исходном тексте. N обычно составляет около 2–10. Таким образом, «естественный» и «язык» могут быть связаны в тексте о NLP. «Естественный» и «обработка» также будут связаны, поскольку они оба будут появляться в одной строке из N слов. Эти ребра основываются на понятии « сплоченности текста » и идее о том, что слова, которые появляются рядом друг с другом, вероятно, связаны значимым образом и «рекомендуют» друг друга читателю.

Поскольку этот метод просто ранжирует отдельные вершины, нам нужен способ порогового значения или создания ограниченного количества ключевых фраз. Выбранная методика заключается в установке количества T в качестве указанной пользователем доли от общего количества вершин в графе. Затем верхние T вершин/униграмм выбираются на основе их стационарных вероятностей. Затем применяется шаг постобработки для объединения смежных экземпляров этих T униграмм. В результате потенциально будет создано больше или меньше, чем T окончательных ключевых фраз, но это количество должно быть примерно пропорционально длине исходного текста.

Изначально не ясно, почему применение PageRank к графу совместной встречаемости приведет к созданию полезных ключевых фраз. Один из способов думать об этом заключается в следующем. Слово, которое встречается несколько раз в тексте, может иметь много разных соседей, которые встречаются одновременно. Например, в тексте о машинном обучении униграмма «learning» может встречаться вместе с «machine», «supervised», «un-supervised» и «semi-supervised» в четырех разных предложениях. Таким образом, вершина «learning» будет центральным «узлом», который соединяется с этими другими модифицирующими словами. Запуск PageRank/TextRank на графе, скорее всего, высоко ранжирует «learning». Аналогично, если текст содержит фразу «supervised classification», то будет ребро между «supervised» и «classification». Если «classification» встречается в нескольких других местах и, таким образом, имеет много соседей, его важность будет способствовать важности «supervised». Если он получит высокий рейтинг, он будет выбран в качестве одной из лучших униграмм T, наряду с «обучением» и, возможно, «классификацией». На последнем этапе постобработки мы получим ключевые фразы «обучение под контролем» и «классификация под контролем».

Короче говоря, граф совместной встречаемости будет содержать плотно связанные области для терминов, которые появляются часто и в разных контекстах. Случайное блуждание по этому графу будет иметь стационарное распределение, которое назначает большие вероятности терминам в центрах кластеров. Это похоже на то, как плотно связанные веб-страницы получают высокий рейтинг по PageRank. Этот подход также использовался в реферировании документов, рассмотренном ниже.

Резюме документа

Как и извлечение ключевых фраз, резюмирование документа направлено на выявление сути текста. Единственное реальное отличие заключается в том, что теперь мы имеем дело с более крупными текстовыми единицами — целыми предложениями, а не словами и фразами.

Подходы к контролируемому обучению

Контролируемое реферирование текста очень похоже на контролируемое извлечение ключевых фраз. По сути, если у вас есть коллекция документов и созданные человеком рефераты для них, вы можете узнать особенности предложений, которые делают их хорошими кандидатами для включения в реферат. Особенности могут включать положение в документе (т. е. первые несколько предложений, вероятно, важны), количество слов в предложении и т. д. Основная сложность контролируемого извлекаемого реферата заключается в том, что известные рефераты должны быть созданы вручную путем извлечения предложений, чтобы предложения в исходном учебном документе могли быть помечены как «в реферате» или «не в реферате». Обычно люди не создают рефераты таким образом, поэтому простого использования журнальных аннотаций или существующих рефератов обычно недостаточно. Предложения в этих рефератах не обязательно совпадают с предложениями в исходном тексте, поэтому было бы сложно назначать метки примерам для обучения. Однако следует отметить, что эти естественные рефераты все еще можно использовать для целей оценки, поскольку оценка ROUGE-1 учитывает только униграммы.

Резюмирование на основе максимальной энтропии

Во время оценочных семинаров DUC 2001 и 2002 годов TNO разработала систему извлечения предложений для реферирования нескольких документов в области новостей. Система была основана на гибридной системе, использующей наивный байесовский классификатор и статистические языковые модели для моделирования значимости. Хотя система показала хорошие результаты, исследователи хотели изучить эффективность классификатора максимальной энтропии (ME) для задачи реферирования встреч, поскольку известно, что ME устойчив к зависимостям признаков. Максимальная энтропия также успешно применялась для реферирования в области новостей вещания.

Адаптивное реферирование

Перспективным подходом является адаптивное реферирование документа/текста. [17] Оно включает в себя сначала распознавание жанра текста, а затем применение алгоритмов реферирования, оптимизированных для этого жанра. Такое программное обеспечение было создано. [18]

TextRank и LexRank

Неконтролируемый подход к резюмированию также весьма схож по духу с неконтролируемым извлечением ключевых фраз и обходит проблему дорогостоящих обучающих данных. Некоторые неконтролируемые подходы к резюмированию основаны на поиске " центроидного " предложения, которое является средним вектором слов всех предложений в документе. Затем предложения можно ранжировать с учетом их сходства с этим центроидным предложением.

Более принципиальный способ оценки важности предложений — использование случайных блужданий и центральности собственных векторов. LexRank [19] — это алгоритм, по сути идентичный TextRank, и оба используют этот подход для резюмирования документов. Оба метода были разработаны разными группами в одно и то же время, и LexRank просто фокусировался на резюмировании, но его можно было бы с таким же успехом использовать для извлечения ключевых фраз или любой другой задачи ранжирования NLP.

В LexRank и TextRank граф строится путем создания вершины для каждого предложения в документе.

Ребра между предложениями основаны на некоторой форме семантического сходства или перекрытия контента. В то время как LexRank использует косинусное сходство векторов TF-IDF , TextRank использует очень похожую меру, основанную на количестве общих слов в двух предложениях ( нормализованную по длине предложений). В статье LexRank исследовалось использование невзвешенных ребер после применения порогового значения к значениям косинуса, но также экспериментировалось с использованием ребер с весами, равными оценке сходства. TextRank использует непрерывные оценки сходства в качестве весов.

В обоих алгоритмах предложения ранжируются путем применения PageRank к полученному графику. Сводка формируется путем объединения предложений с самым высоким рейтингом, используя порог или ограничение длины для ограничения размера сводки.

Стоит отметить, что TextRank применялся к резюмированию точно так, как описано здесь, в то время как LexRank использовался как часть более крупной системы резюмирования (MEAD), которая объединяет оценку LexRank (стационарную вероятность) с другими функциями, такими как положение и длина предложения, используя линейную комбинацию с указанными пользователем или автоматически настроенными весами. В этом случае могут потребоваться некоторые учебные документы, хотя результаты TextRank показывают, что дополнительные функции не являются абсолютно необходимыми.

В отличие от TextRank, LexRank применяется для реферирования нескольких документов.

Резюмирование нескольких документов

Резюмирование нескольких документов — это автоматическая процедура, направленная на извлечение информации из нескольких текстов, написанных по одной теме. Полученный в результате сводный отчет позволяет отдельным пользователям, таким как профессиональные потребители информации, быстро ознакомиться с информацией, содержащейся в большом кластере документов. Таким образом, системы резюмирования нескольких документов дополняют новостные агрегаторы , выполняя следующий шаг на пути к преодолению информационной перегрузки . Резюмирование нескольких документов также может быть выполнено в ответ на вопрос. [20] [11]

Резюмирование нескольких документов создает информационные отчеты, которые являются как краткими, так и всеобъемлющими. При объединении и изложении различных мнений каждая тема описывается с нескольких точек зрения в одном документе. В то время как цель краткого резюме — упростить поиск информации и сократить время, указав на наиболее релевантные исходные документы, полное резюме нескольких документов должно само содержать требуемую информацию, тем самым ограничивая необходимость доступа к исходным файлам в случаях, когда требуется уточнение. Автоматические резюме представляют информацию, извлеченную из нескольких источников, алгоритмически, без какого-либо редакторского прикосновения или субъективного человеческого вмешательства, что делает ее полностью беспристрастной. [ dubiousdiscussion ]

Разнообразие

Многодокументное извлекающее реферирование сталкивается с проблемой избыточности. В идеале мы хотим извлечь предложения, которые являются как «центральными» (т. е. содержат основные идеи), так и «разнообразными» (т. е. отличаются друг от друга). Например, в наборе новостных статей о каком-то событии каждая статья, скорее всего, будет иметь много похожих предложений. Чтобы решить эту проблему, LexRank применяет эвристический шаг постобработки, который добавляет предложения в порядке ранжирования, но отбрасывает предложения, которые слишком похожи на те, которые уже есть в резюме. Этот метод называется Cross-Sentence Information Subsumption (CSIS). Эти методы работают на основе идеи, что предложения «рекомендуют» читателю другие похожие предложения. Таким образом, если одно предложение очень похоже на многие другие, оно, скорее всего, будет предложением большой важности. Его важность также вытекает из важности предложений, «рекомендующих» его. Таким образом, чтобы получить высокий рейтинг и место в резюме, предложение должно быть похоже на многие предложения, которые, в свою очередь, также похожи на многие другие предложения. Это интуитивно понятно и позволяет применять алгоритмы к произвольному новому тексту. Методы не зависят от домена и легко переносимы. Можно представить, что признаки, указывающие на важные предложения в новостной области, могут значительно отличаться от биомедицинской области. Однако неконтролируемый подход на основе «рекомендаций» применим к любой области.

Связанный метод — это метод максимальной предельной релевантности (MMR), [21] , который использует алгоритм ранжирования на основе графов общего назначения, такой как Page/Lex/TextRank, который обрабатывает как «центральность», так и «разнообразие» в единой математической структуре, основанной на поглощении случайных блужданий цепи Маркова (случайное блуждание, когда определенные состояния заканчивают блуждание). Алгоритм называется GRASSHOPPER. [22] В дополнение к явному содействию разнообразию в процессе ранжирования, GRASSHOPPER включает в себя предварительное ранжирование (основанное на позиции предложения в случае резюмирования).

Результаты, соответствующие современным требованиям, для многодокументного реферирования получены с использованием смесей субмодулярных функций. Эти методы достигли результатов, соответствующих современным требованиям, для Document Summarization Corpora, DUC 04 - 07. [23] Аналогичные результаты были получены с использованием детерминантных точечных процессов (которые являются частным случаем субмодулярных функций) для DUC-04. [24]

Новый метод многоязычного многодокументного реферирования, который избегает избыточности, генерирует идеограммы для представления смысла каждого предложения в каждом документе, затем оценивает сходство, сравнивая форму и положение идеограммы. Он не использует частоту слов, обучение или предварительную обработку. Он использует два параметра, предоставляемых пользователем: эквивалентность (когда два предложения считаются эквивалентными?) и релевантность (какова длина желаемого реферата?).

Субмодулярные функции как универсальные инструменты для резюмирования

Идея субмодулярной функции множества недавно появилась как мощный инструмент моделирования для различных задач реферирования. Субмодулярные функции естественным образом моделируют понятия покрытия , информации , представления и разнообразия . Более того, несколько важных задач комбинаторной оптимизации возникают как особые случаи субмодулярной оптимизации. Например, задача покрытия множеств является особым случаем субмодулярной оптимизации, поскольку функция покрытия множеств является субмодулярной. Функция покрытия множеств пытается найти подмножество объектов, которые охватывают заданный набор концепций. Например, при реферировании документов хотелось бы, чтобы резюме охватывало все важные и релевантные концепции в документе. Это случай покрытия множеств. Аналогично, задача расположения объектов является особым случаем субмодулярных функций. Функция расположения объектов также естественным образом моделирует покрытие и разнообразие. Другим примером задачи субмодулярной оптимизации является использование детерминантного точечного процесса для моделирования разнообразия. Аналогично, процедура максимальной предельной релевантности также может рассматриваться как случай субмодулярной оптимизации. Все эти важные модели, способствующие покрытию, разнообразию и информации, являются субмодулярными. Более того, субмодулярные функции можно эффективно комбинировать, и результирующая функция все еще будет субмодулярной. Таким образом, можно объединить одну субмодулярную функцию, которая моделирует разнообразие, другую, которая моделирует покрытие, и использовать человеческое наблюдение, чтобы изучить правильную модель субмодулярной функции для проблемы.

Хотя субмодулярные функции подходят для задач суммирования, они также допускают очень эффективные алгоритмы оптимизации. Например, простой жадный алгоритм допускает постоянную гарантию множителя. [25] Более того, жадный алгоритм чрезвычайно прост в реализации и может масштабироваться до больших наборов данных, что очень важно для задач суммирования.

Субмодулярные функции достигли уровня искусства почти для всех проблем реферирования. Например, работа Лин и Билмеса, 2012 [26] показывает, что субмодулярные функции достигают наилучших результатов на сегодняшний день в системах DUC-04, DUC-05, DUC-06 и DUC-07 для реферирования документов. Аналогично, работа Лин и Билмеса, 2011, [27] показывает, что многие существующие системы для автоматического реферирования являются примерами субмодулярных функций. Это был прорывной результат, устанавливающий субмодулярные функции как правильные модели для проблем реферирования. [ необходима цитата ]

Субмодулярные функции также использовались для других задач резюмирования. Tschiatschek et al., 2014 показывают [28] , что смеси субмодулярных функций достигают самых современных результатов для резюмирования коллекций изображений. Аналогично, Bairi et al., 2015 [29] показывают полезность субмодулярных функций для резюмирования иерархий тем из нескольких документов. Субмодулярные функции также успешно использовались для резюмирования наборов данных машинного обучения. [30]

Приложения

Конкретные применения автоматического реферирования включают в себя:

Оценка

Наиболее распространенный способ оценки информативности автоматических сводок — это сравнение их с модельными сводками, созданными человеком.

Оценка может быть внутренней или внешней, [36] а также интертекстуальной или внутритекстовой. [37]

Внутреннее против внешнего

Внутренняя оценка оценивает резюме напрямую, в то время как внешняя оценка оценивает, как система реферирования влияет на выполнение какой-либо другой задачи. Внутренняя оценка оценивала в основном связность и информативность резюме. Внешняя оценка, с другой стороны, проверяла влияние реферирования на такие задачи, как оценка релевантности, понимание прочитанного и т. д.

Интертекстуальный против внутритекстового

Внутритекстовая оценка оценивает результат работы конкретной системы реферирования, в то время как интертекстовая оценка фокусируется на сопоставительном анализе результатов работы нескольких систем реферирования.

Человеческое суждение часто сильно различается в том, что оно считает "хорошим" резюме, поэтому создание автоматического процесса оценки особенно сложно. Можно использовать ручную оценку, но это требует времени и труда, так как требует, чтобы люди читали не только резюме, но и исходные документы. Другие проблемы касаются согласованности и охвата.

Наиболее распространенным способом оценки резюме является ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Он очень распространен для систем реферирования и перевода на конференциях NIST по пониманию документов.[2] ROUGE — это основанная на отзыве мера того, насколько хорошо резюме охватывает содержание созданных человеком резюме, известных как ссылки. Она вычисляет перекрытия n-грамм между автоматически созданными резюме и ранее написанными людьми резюме. Она основана на отзыве, чтобы поощрять включение всех важных тем в резюме. Отзыв может быть вычислен относительно соответствия униграмм, биграмм, триграмм или 4-грамм. Например, ROUGE-1 — это доля униграмм, которые появляются как в референтном резюме, так и в автоматическом резюме, из всех униграмм в референтном резюме. Если есть несколько референтных резюме, их баллы усредняются. Высокий уровень перекрытия должен указывать на высокую степень общих концепций между двумя резюме.

ROUGE не может определить, является ли результат связным, то есть предложения лиются вместе в разумной последовательности. Высокопорядковые n-граммные меры ROUGE помогают в некоторой степени.

Еще одна нерешенная проблема — разрешение анафоры . Аналогично, для суммирования изображений, Tschiatschek et al. разработали оценку Visual-ROUGE, которая оценивает производительность алгоритмов суммирования изображений. [38]

Резюмирование, специфичное для домена, и независимое от домена

Методы реферирования, независимые от домена, применяют наборы общих признаков для идентификации информационно-богатых текстовых сегментов. Недавние исследования фокусируются на реферировании, специфичном для домена, с использованием знаний, характерных для домена текста, таких как медицинские знания и онтологии для реферирования медицинских текстов. [39]

Качественный

Основным недостатком систем оценки на данный момент является то, что нам требуется справочное резюме (для некоторых методов более одного), чтобы сравнивать автоматические резюме с моделями. Это сложная и дорогая задача. Необходимо приложить много усилий для создания корпусов текстов и соответствующих им резюме. Кроме того, некоторые методы требуют ручного аннотирования резюме (например, SCU в методе пирамиды). Более того, все они выполняют количественную оценку с учетом различных метрик сходства.

История

Первая публикация в этой области датируется 1957 годом [40] ( Ханс Петер Лун ), начиная со статистического метода. Исследования значительно возросли в 2015 году. Частота термина - обратная частота документа использовалась к 2016 году. Резюмирование на основе шаблонов было самым мощным вариантом для резюмирования нескольких документов, найденным к 2016 году. В следующем году его превзошел латентный семантический анализ (LSA) в сочетании с неотрицательной матричной факторизацией (NMF). Хотя они не заменили другие подходы и часто сочетаются с ними, к 2019 году методы машинного обучения доминировали в извлеченном резюмировании отдельных документов, которое считалось приближающимся к зрелости. К 2020 году эта область все еще была очень активной, и исследования смещаются в сторону абстрактного суммирования и резюмирования в реальном времени. [41]

Недавние подходы

В последнее время рост моделей-трансформеров, заменяющих более традиционные RNN ( LSTM ), обеспечил гибкость в отображении текстовых последовательностей в текстовые последовательности другого типа, что хорошо подходит для автоматического реферирования. Сюда входят такие модели, как T5 [42] и Pegasus. [43]

Смотрите также

Ссылки

  1. ^ Торрес-Морено, Хуан-Мануэль (1 октября 2014 г.). Автоматическое реферирование текста. Wiley. стр. 320–. ISBN 978-1-848-21668-6.
  2. ^ Пан, Синцзя; Тан, Фань; Дун, Вэймин; Ма, Чунъян; Мэн, Ипин; Хуан, Фэйюэ; Ли, Тонг-Йи; Сюй, Чаншэн (2021-04-01). «Визуальное суммирование на основе контента для сбора изображений». Труды IEEE по визуализации и компьютерной графике . 27 (4): 2298–2312. doi :10.1109/tvcg.2019.2948611. ISSN  1077-2626. PMID  31647438. S2CID  204865221.
  3. ^ "ВОИС ПУБЛИКУЕТ ПАТЕНТ KT НА "СИСТЕМУ И МЕТОД СУММАРИЗАЦИИ ИЗОБРАЖЕНИЙ" (ЮЖНОКОРЕЙСКИЕ ИЗОБРЕТАТЕЛИ)". Служба новостей Федеральной резервной системы США . 10 января 2018 г. ProQuest  1986931333. Получено 22 января 2021 г.
  4. ^ Ли Тан; Янцю Сун; Шися Лю ; Лексинг Се (февраль 2012 г.). «ImageHive: интерактивное реферирование изображений с учетом содержимого». IEEE Computer Graphics and Applications . 32 (1): 46–55. doi :10.1109/mcg.2011.89. ISSN  0272-1716. PMID  24808292. S2CID  7668289.
  5. ^ Санкар К. Пал; Альфредо Петросино; Люсия Маддалена (25 января 2012 г.). Справочник по мягким вычислениям для видеонаблюдения. CRC Press. стр. 81–. ISBN 978-1-4398-5685-7.
  6. ^ Elhamifar, Ehsan; Sapiro, Guillermo; Vidal, Rene (2012). «Увидеть все, посмотрев на несколько: разреженное моделирование для поиска репрезентативных объектов». Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов. IEEE. стр. 1600–1607. doi :10.1109/CVPR.2012.6247852. ISBN 978-1-4673-1228-8. S2CID  5909301 . Получено 4 декабря 2022 г. .
  7. ^ Mademlis, Ioannis; Tefas, Anastasios; Nicholasidis, Nikos; Pitas, Ioannis (2016). «Мультимодальное стереоскопическое резюмирование фильмов, соответствующее повествовательным характеристикам» (PDF) . IEEE Transactions on Image Processing . 25 (12). IEEE: 5828–5840. Bibcode :2016ITIP...25.5828M. doi :10.1109/TIP.2016.2615289. hdl :1983/2bcdd7a5-825f-4ac9-90ec-f2f538bfcb72. PMID  28113502. S2CID  18566122 . Получено 4 декабря 2022 г.
  8. ^ Mademlis, Ioannis; Tefas, Anastasios; Pitas, Ioannis (2018). «Основная структура обучения словарю для резюмирования видеозаписей с помощью извлечения ключевых кадров». Information Sciences . 432 . Elsevier: 319–331. doi :10.1016/j.ins.2017.12.020 . Получено 4 декабря 2022 г. .
  9. ^ "Автоматически сгенерированные сводки в Google Docs". Блог Google AI . 23 марта 2022 г. Получено 03.04.2022 .
  10. ^ Ричард Суц, Питер Веверка. Как бегло просматривать текст. https://www.dummies.com/education/language-arts/speed-reading/how-to-skim-text/ Доступно в декабре 2019 г.
  11. ^ ab Afzal M, Alam F, Malik KM, Malik GM, Клиническое контекстно-зависимое биомедицинское реферирование текста с использованием глубокой нейронной сети: разработка и проверка модели, J Med Internet Res 2020;22(10):e19810, DOI: 10.2196/19810, PMID 33095174
  12. ^ Чжай, Чэнсян (2016). Управление и анализ текстовых данных: практическое введение в поиск информации и интеллектуальный анализ текста. Шон Массунг. [Нью-Йорк, штат Нью-Йорк]. стр. 321. ISBN 978-1-970001-19-8. OCLC  957355971.{{cite book}}: CS1 maint: отсутствует местоположение издателя ( ссылка )
  13. ^ Хорхе Э. Камарго и Фабио А. Гонсалес. Метод многоклассового выравнивания ядра для суммирования коллекции изображений. В трудах 14-й Ибероамериканской конференции по распознаванию образов: прогресс в распознавании образов, анализе изображений, компьютерном зрении и приложениях (CIARP '09), Эдуардо Байро-Коррочано и Ян-Олоф Эклунд (редакторы). Springer-Verlag, Берлин, Гейдельберг, 545-552. doi :10.1007/978-3-642-10268-4_64
  14. ^ Alrehamy, Hassan H; Walker, Coral (2018). "SemCluster: Неконтролируемое автоматическое извлечение ключевой фразы с использованием распространения сродства". Достижения в области вычислительных интеллектуальных систем . Достижения в области интеллектуальных систем и вычислений. Том 650. С. 222–235. doi :10.1007/978-3-319-66939-7_19. ISBN 978-3-319-66938-0.
  15. ^ Терни, Питер Д. (2002). «Алгоритмы обучения для извлечения ключевых фраз». Информационный поиск . 2 (4): 303–336. arXiv : cs/0212020 . Bibcode : 2002cs.......12020T. doi : 10.1023/A:1009976227802. S2CID  7007323.
  16. ^ Рада Михалча и Пол Тарау, 2004: TextRank: Bringing Order into Texts , Department of Computer Science University of North Texas "Архивная копия" (PDF) . Архивировано из оригинала 2012-06-17 . Получено 2012-07-20 .{{cite web}}: CS1 maint: архивная копия как заголовок ( ссылка ) CS1 maint: бот: исходный статус URL неизвестен ( ссылка )
  17. ^ Яцко, ВА; Стариков, МС; Бутаков, АВ (2010). «Автоматическое распознавание жанров и адаптивное реферирование текстов». Автоматическая документация и математическая лингвистика . 44 (3): 111–120. doi :10.3103/S0005105510030027. S2CID  1586931.
  18. ^ UNIS (Универсальный сумматор)
  19. ^ Гюнеш Эркан и Драгомир Р. Радев: LexRank: лексическая центральность на основе графа как значимость в реферировании текста [1]
  20. ^ «Универсальные системы вопросов и ответов: видение в синтезе», Международный журнал интеллектуальных информационных систем баз данных, 5(2), 119-142, 2011.
  21. ^ Карбонелл, Хайме и Джейд Голдштейн. «Использование MMR, переранжирования на основе разнообразия для переупорядочивания документов и создания резюме». Труды 21-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска. ACM, 1998.
  22. ^ Чжу, Сяоцзинь и др. «Улучшение разнообразия в ранжировании с использованием поглощающих случайных блужданий». HLT-NAACL. 2007.
  23. ^ Хуэй Линь, Джефф Билмес. «Изучение смесей субмодулярных оболочек с применением к реферированию документов»
  24. ^ Алекс Кулеша и Бен Таскар, Детерминантные точечные процессы для машинного обучения. Основы и тенденции в машинном обучении, декабрь 2012 г.
  25. ^ Немхаузер, Джордж Л., Лоренс А. Уолси и Маршалл Л. Фишер. «Анализ приближений для максимизации субмодулярных функций множеств — I». Математическое программирование 14.1 (1978): 265-294.
  26. ^ Хуэй Линь, Джефф Билмес. «Изучение смесей субмодулярных оболочек с применением к реферированию документов», UAI, 2012
  27. ^ Хуэй Линь, Джефф Билмес. «Класс субмодулярных функций для реферирования документов», 49-е ежегодное собрание Ассоциации компьютерной лингвистики: Технологии человеческого языка (ACL-HLT), 2011 г.
  28. ^ Себастьян Чиачек, Ришаб Айер, Хоачен Вэй и Джефф Билмес, Изучение смесей субмодулярных функций для резюмирования коллекции изображений, In Advances of Neural Information Processing Systems (NIPS), Монреаль, Канада, декабрь 2014 г.
  29. ^ Рамакришна Баири, Ришабх Айер, Ганеш Рамакришнан и Джефф Билмес, «Обобщение иерархий тем многодокументных документов с использованием субмодулярных смесей», будет представлено на ежегодном собрании Ассоциации компьютерной лингвистики (ACL), Пекин, Китай, июль 2015 г.
  30. ^ Кай Вэй, Ришаб Айер и Джефф Билмес, Субмодулярность в выборе подмножества данных и активном обучении. Архивировано 13 марта 2017 г. на Wayback Machine . Опубликовано в Proc. Международная конференция по машинному обучению (ICML), Лилль, Франция, июнь 2015 г.
  31. ^ "обзор для autotldr". reddit . Получено 9 февраля 2017 г. .
  32. ^ Сквайр, Меган (2016-08-29). Мастерство интеллектуального анализа данных с помощью Python – найдите скрытые в ваших данных закономерности. Packt Publishing Ltd. ISBN 9781785885914. Получено 9 февраля 2017 г. .
  33. ^ «Что такое „TLDR“?». Lifewire . Получено 9 февраля 2017 г.
  34. ^ "Что означает TL;DR? AMA? TIL? Глоссарий терминов и сокращений Reddit". International Business Times . 29 марта 2012 г. Получено 9 февраля 2017 г.
  35. ^ Поттхаст, Хаген и Штейн, 2016, стр. 11-12.
  36. ^ Мани, И. Оценка резюмирования: обзор
  37. ^ Яцко, ВА; Вишняков, ТН (2007). «Метод оценки современных систем автоматического реферирования текстов». Автоматическая документация и математическая лингвистика . 41 (3): 93–103. doi :10.3103/S0005105507030041. S2CID  7853204.
  38. ^ Себастьян Чиачек, Ришаб Айер, Хоачен Вэй и Джефф Билмес, Изучение смесей субмодулярных функций для суммирования коллекции изображений, In Advances of Neural Information Processing Systems (NIPS), Монреаль, Канада, декабрь 2014 г. (PDF)
  39. ^ Саркер, Абид; Молла, Диего; Париж, Сесиль (2013). «Подход к реферированию текста, ориентированного на запросы, для доказательной медицины». Искусственный интеллект в медицине . Конспект лекций по информатике. Том 7885. С. 295–304. doi :10.1007/978-3-642-38326-7_41. ISBN 978-3-642-38325-0.
  40. ^ Лун, Ганс Петер (1957). «Статистический подход к механизированному кодированию и поиску литературной информации» (PDF). IBM Journal of Research and Development. 1 (4): 309–317. doi:10.1147/rd.14.0309.
  41. ^ Видьяссари, Адхика Прамита; Рустад, Суприади; Шидик, Гурух Фаджар; Ноерсасонгко, Эди; Сюкур, Абдул; Аффанди, Аффанди; Сетиади, Де Розаль Игнатий Мозес (20 мая 2020 г.). «Обзор методов и методов автоматического суммирования текста». Журнал Университета короля Сауда — компьютерные и информационные науки . 34 (4): 1029–1046. дои : 10.1016/j.jksuci.2020.05.006 . ISSN  1319-1578.
  42. ^ «Изучение трансферного обучения с помощью T5: преобразователь текста в текст». Блог Google AI . 24 февраля 2020 г. Получено 03.04.2022 г.
  43. ^ Чжан, Дж., Чжао, И., Салех, М. и Лю, П. (2020, ноябрь). Pegasus: Предварительное обучение с извлеченными предложениями с пробелами для абстрактного резюмирования. На Международной конференции по машинному обучению (стр. 11328-11339). PMLR.

Цитируемые работы

Дальнейшее чтение