Обнаружение сходства контента

Обнаружение плагиата или обнаружение сходства контента — это процесс выявления случаев плагиата или нарушения авторских прав в произведении или документе. Широкое использование компьютеров и появление Интернета облегчили плагиат чужих работ. ^[1]^[2]

Обнаружение плагиата может осуществляться различными способами. Обнаружение людей является наиболее традиционной формой выявления плагиата в письменных работах. Это может оказаться длительной и трудоемкой задачей для читателя ^[2] , а также может привести к несоответствиям в том, как выявляется плагиат внутри организации. ^[3] Программное обеспечение для сопоставления текста (TMS), которое также называют «программным обеспечением для обнаружения плагиата» или «программным обеспечением для борьбы с плагиатом», стало широко доступным как в виде коммерчески доступных продуктов, так и в виде продуктов с открытым исходным кодом ^{. необходимые примеры ]} программное обеспечение. TMS на самом деле не обнаруживает плагиат как таковой, а вместо этого находит определенные отрывки текста в одном документе, которые совпадают с текстом в другом документе.

Программное обнаружение плагиата

Компьютерное обнаружение плагиата (CaPD) — это задача поиска информации (IR), поддерживаемая специализированными системами IR, которая называется системой обнаружения плагиата (PDS) или системой обнаружения сходства документов. Систематический обзор литературы 2019 года ^[4] представляет обзор современных методов обнаружения плагиата.

В текстовых документах

Системы обнаружения сходства текста реализуют один из двух общих подходов обнаружения: один является внешним, другой — внутренним. ^[5] Внешние системы обнаружения сравнивают подозрительный документ с эталонной коллекцией, которая представляет собой набор документов, предположительно подлинных. ^[6] На основе выбранной модели документа и заранее определенных критериев сходства задача обнаружения состоит в том, чтобы извлечь все документы, содержащие текст, который в степени, превышающей выбранный порог, похож на текст в подозрительном документе. ^[7] Внутренние PDS анализируют исключительно текст, подлежащий оценке, без сравнения с внешними документами. Этот подход направлен на признание изменений в уникальном стиле письма автора как индикатора потенциального плагиата. ^[8]^[9] PDS не способны надежно идентифицировать плагиат без человеческого суждения. Сходства и особенности стиля письма вычисляются с помощью предопределенных моделей документов и могут представлять собой ложноположительные результаты. ^[10]^[11]^[12]^[13]^[14]

Эффективность этих инструментов в условиях высшего образования

Было проведено исследование с целью проверить эффективность программного обеспечения для обнаружения сходства в условиях высшего образования. В одной части исследования одной группе студентов было поручено написать статью. Этих студентов сначала проинформировали о плагиате и сообщили, что их работа должна проверяться через систему обнаружения сходства содержания. Второй группе студентов было поручено написать работу без какой-либо информации о плагиате. Исследователи ожидали более низкие показатели в первой группе, но обнаружили примерно одинаковый уровень плагиата в обеих группах. ^[15]

Подходы

На рисунке ниже представлена классификация всех подходов к обнаружению, используемых в настоящее время для компьютерного обнаружения сходства контента. Подходы характеризуются типом проводимой ими оценки сходства: глобальная или локальная. Подходы к глобальной оценке сходства используют характеристики, взятые из больших частей текста или документа в целом, для вычисления сходства, в то время как локальные методы исследуют в качестве входных данных только предварительно выбранные фрагменты текста. ^{[ нужна цитата ]}

Отпечатки пальцев

Отпечатки пальцев в настоящее время являются наиболее широко применяемым подходом к обнаружению сходства контента. Этот метод формирует репрезентативные дайджесты документов, выбирая из них набор из нескольких подстрок ( n-грамм ). Наборы представляют собой отпечатки пальцев , а их элементы называются мелочами. ^[16]^[17] Подозрительный документ проверяется на плагиат путем вычисления его отпечатка пальца и запроса деталей с помощью заранее вычисленного индекса отпечатков пальцев для всех документов справочной коллекции. Совпадение мелочей с деталями других документов указывает на общие сегменты текста и предполагает потенциальный плагиат, если они превышают выбранный порог сходства. ^[18] Вычислительные ресурсы и время являются ограничивающими факторами для снятия отпечатков пальцев, поэтому этот метод обычно сравнивает только подмножество мелочей, чтобы ускорить вычисления и обеспечить проверку очень больших коллекций, таких как Интернет. ^[16]

Сопоставление строк

Сопоставление строк — распространенный подход, используемый в информатике. Применительно к проблеме обнаружения плагиата документы сравниваются на предмет дословного совпадения текста. Для решения этой задачи было предложено множество методов, некоторые из которых были адаптированы для внешнего обнаружения плагиата. Проверка подозрительного документа в этом режиме требует вычисления и хранения эффективно сопоставимых представлений для всех документов в коллекции ссылок для их попарного сравнения. Обычно для этой задачи используются модели суффиксных документов, такие как суффиксные деревья или суффиксные векторы. Тем не менее, сопоставление подстрок остается дорогостоящим с точки зрения вычислений, что делает его нежизнеспособным решением для проверки больших коллекций документов. ^[19]^[20]^[21]

Мешок слов

Анализ «мешка слов» представляет собой внедрение поиска в векторном пространстве , традиционной концепции IR, в область обнаружения сходства контента. Документы представлены как один или несколько векторов, например, для разных частей документа, которые используются для вычислений попарного сходства. Вычисление сходства может затем опираться на традиционную косинусную меру сходства или на более сложные меры сходства. ^[22]^[23]^[24]

Анализ цитирования

Обнаружение плагиата на основе цитирования (CbPD) ^[25] основано на анализе цитирования и является единственным подходом к обнаружению плагиата, который не основан на текстовом сходстве. ^[26] CbPD проверяет цитирование и справочную информацию в текстах, чтобы выявить схожие закономерности в последовательностях цитирования. Таким образом, этот подход подходит для научных текстов или других академических документов, содержащих цитаты. Анализ цитирования для выявления плагиата — относительно молодая концепция. Он не был принят в коммерческом программном обеспечении, но существует первый прототип системы обнаружения плагиата на основе цитирования. ^[27] Схожий порядок и близость цитирования в исследованных документах являются основными критериями, используемыми для расчета сходства шаблонов цитирования. Шаблоны цитирования представляют собой подпоследовательности, неисключительно содержащие цитаты, общие для сравниваемых документов. ^[26]^[28] Факторы, включая абсолютное количество или относительную долю общих цитат в шаблоне, а также вероятность того, что цитаты встречаются в документе одновременно, также считаются количественными показателями степени сходства шаблонов. ^[26]^[28]^[29]^[30]

Стилометрия

Стилометрия включает в себя статистические методы количественной оценки уникального стиля письма автора ^[31]^[32] и в основном используется для установления авторства или обнаружения внутреннего плагиата. ^[33] Для выявления плагиата по установлению авторства необходимо проверить, соответствует ли стиль написания подозрительного документа, который предположительно написан определенным автором, стилю написания корпуса документов, написанных тем же автором. С другой стороны, обнаружение внутреннего плагиата выявляет плагиат на основе внутренних доказательств подозрительного документа без сравнения его с другими документами. Это осуществляется путем построения и сравнения стилометрических моделей для разных фрагментов текста подозрительного документа, а отрывки, стилистически отличающиеся от других, помечаются как потенциально плагиатные/нарушенные. ^[8] Несмотря на простоту извлечения, n-граммы символов оказались одними из лучших стилометрических признаков для обнаружения внутреннего плагиата. ^[34]

Нейронные сети

Более поздние подходы к оценке сходства контента с использованием нейронных сетей достигли значительно большей точности, но требуют больших вычислительных затрат. ^[35] Традиционные подходы к нейронным сетям встраивают обе части контента в вложения семантических векторов для расчета их сходства, которое часто является их косинусным сходством. Более продвинутые методы выполняют сквозное прогнозирование сходства или классификации с использованием архитектуры Transformer . ^[36]^[37] Особенно выгодным для обнаружения перефразирования являются предварительно обученные модели с высокой параметризацией.

Производительность

Сравнительные оценки систем обнаружения сходства контента ^[6]^[38]^[39]^[40]^[41]^[42] показывают, что их производительность зависит от типа присутствующего плагиата (см. Рисунок). За исключением анализа шаблонов цитирования, все подходы к обнаружению основаны на текстовом сходстве. Поэтому симптоматично, что точность обнаружения снижается по мере того, как больше случаев плагиата запутывается.

Буквальные копии, т. е. плагиат копирования и вставки (c&p), явное нарушение авторских прав или случаи скромно замаскированного плагиата, могут быть обнаружены с высокой точностью с помощью текущей внешней PDS, если источник доступен для программного обеспечения. Процедуры сопоставления подстрок особенно хорошо справляются с плагиатом c&p, поскольку они обычно используют модели документов без потерь, такие как суффиксные деревья . Производительность систем, использующих отпечатки пальцев или анализ набора слов при обнаружении копий, зависит от потери информации, вызванной используемой моделью документа. Применяя гибкие стратегии разделения и отбора, они лучше обнаруживают умеренные формы замаскированного плагиата по сравнению с процедурами сопоставления подстрок.

Обнаружение внутреннего плагиата с помощью стилометрии может в некоторой степени преодолеть границы текстового сходства за счет сравнения лингвистического сходства. Учитывая, что стилистические различия между плагиатом и оригинальными фрагментами значительны и могут быть надежно идентифицированы, стилометрия может помочь в выявлении замаскированного и перефразированного плагиата. Стилометрические сравнения, скорее всего, не принесут результата в тех случаях, когда фрагменты сильно перефразированы до такой степени, что они больше напоминают личный стиль письма плагиатора, или если текст был составлен несколькими авторами. Результаты международных конкурсов по обнаружению плагиата, проведенных в 2009, 2010 и 2011 годах, ^[6]^[41]^[42], а также эксперименты, проведенные Штейном ^[33], показывают, что стилометрический анализ, по-видимому, работает надежно только для документов длиной несколько тысяч или десятков тысяч слов, что ограничивает применимость метода к настройкам КаПД.

Все больше исследований проводится по методам и системам, способным обнаруживать плагиат в переводе. В настоящее время обнаружение межъязыкового плагиата (CLPD) не рассматривается как зрелая технология ^[43] , и соответствующие системы не смогли достичь удовлетворительных результатов обнаружения на практике. ^[40]

Обнаружение плагиата на основе цитирования с использованием анализа шаблонов цитирования способно выявлять более сильные перефразирования и переводы с более высокими показателями успеха по сравнению с другими подходами к обнаружению, поскольку оно не зависит от текстовых характеристик. ^[26]^[29] Однако, поскольку анализ структуры цитирования зависит от наличия достаточной информации о цитировании, он ограничивается академическими текстами. Он по-прежнему уступает текстовым подходам в обнаружении более коротких фрагментов плагиата, которые типичны для случаев плагиата методом копирования и вставки или встряхивания и вставки; последнее относится к смешиванию слегка измененных фрагментов из разных источников. ^[44]

Программное обеспечение

Разработка программного обеспечения для обнаружения сходства контента для использования с текстовыми документами характеризуется рядом факторов: ^[45]

Большинство крупномасштабных систем обнаружения плагиата используют большие внутренние базы данных (в дополнение к другим ресурсам), которые растут с каждым дополнительным документом, представленным на анализ. Однако некоторые считают эту функцию нарушением студенческих авторских прав . ^{[ нужна цитата ]}

В исходном коде

Плагиат в компьютерном исходном коде также встречается часто и требует использования других инструментов, чем те, которые используются для сравнения текста в документе. Значительные исследования были посвящены плагиату академического исходного кода. ^[46]

Отличительной особенностью плагиата исходного кода является отсутствие «фабрик эссе» , которые можно найти в традиционном плагиате. Поскольку большинство заданий по программированию предполагают, что учащиеся напишут программы с очень специфическими требованиями, очень сложно найти существующие программы, которые уже отвечают им. Поскольку интегрировать внешний код зачастую сложнее, чем писать его с нуля, большинство студентов, занимающихся плагиатом, предпочитают делать это у своих сверстников.

Согласно Рою и Корди, ^[47] алгоритмы обнаружения сходства исходного кода можно классифицировать как основанные либо на

Строки – ищите точные текстовые совпадения сегментов, например, по пять слов. Быстро, но можно запутаться при переименовании идентификаторов.
Токены — как и строки, но сначала используется лексер для преобразования программы в токены . При этом пробелы, комментарии и имена идентификаторов отбрасываются, что делает систему более устойчивой к простым заменам текста. Большинство академических систем обнаружения плагиата работают на этом уровне, используя различные алгоритмы для измерения сходства между последовательностями токенов.
Деревья разбора – создавайте и сравнивайте деревья разбора. Это позволяет обнаружить сходства на более высоком уровне. Например, сравнение деревьев может нормализовать условные операторы и обнаружить эквивалентные конструкции, похожие друг на друга.
Графы зависимостей программ (PDG) - PDG фиксирует фактический поток управления в программе и позволяет находить эквиваленты гораздо более высокого уровня, с большими затратами в сложности и времени вычислений.
Метрики – метрики фиксируют «оценки» сегментов кода в соответствии с определенными критериями; например, «количество циклов и условий» или «количество различных используемых переменных». Метрики легко вычисляются и их можно быстро сравнивать, но они также могут приводить к ложным срабатываниям: два фрагмента с одинаковыми оценками по набору метрик могут делать совершенно разные вещи.
Гибридные подходы – например, деревья синтаксического анализа + суффиксные деревья могут сочетать в себе возможности обнаружения деревьев синтаксического анализа со скоростью, обеспечиваемой суффиксными деревьями, типом структуры данных, определяющей соответствие строк.

Предыдущая классификация была разработана для рефакторинга кода , а не для обнаружения академического плагиата (важная цель рефакторинга — избежать дублирования кода , называемого в литературе клонами кода). Вышеупомянутые подходы эффективны против разных уровней сходства; Сходство низкого уровня относится к идентичному тексту, тогда как сходство высокого уровня может быть связано с схожими спецификациями. В академической среде, когда ожидается, что все студенты будут писать код в соответствии с одинаковыми спецификациями, полностью ожидается функционально эквивалентный код (с высоким уровнем сходства), и только низкоуровневое сходство рассматривается как доказательство мошенничества.

Алгоритмы

Для обнаружения дублированного кода был предложен ряд различных алгоритмов. Например:

Алгоритм Бейкера . ^[48]
Алгоритм поиска строки Рабина-Карпа .
Использование абстрактных синтаксических деревьев . ^[49]
Визуальное обнаружение клонов. ^[50]
Подсчет обнаружения клонов матрицы. ^[51]^[52]
Хэширование с учетом местоположения
Против объединения ^[53]

Осложнения при использовании текстовых программ для обнаружения плагиата

Были задокументированы различные осложнения при использовании программного обеспечения для сопоставления текста для обнаружения плагиата. Одна из наиболее распространенных проблем документально сосредоточена на проблеме прав интеллектуальной собственности. Основной аргумент заключается в том, что материалы должны быть добавлены в базу данных, чтобы TMS могла эффективно определить соответствие, но добавление материалов пользователей в такую базу данных может нарушить их права интеллектуальной собственности. Этот вопрос поднимался в ряде судебных дел.

Дополнительная сложность при использовании TMS заключается в том, что программа находит только точные совпадения с другим текстом. Например, он не выявляет плохо перефразированные работы или практику плагиата с использованием достаточных замен слов, чтобы избежать обнаружения программным обеспечением, что известно как рогетинг .

Смотрите также

Программное обеспечение для обнаружения искусственного интеллекта — программное обеспечение для обнаружения контента, созданного искусственным интеллектом.
Категория:Детекторы плагиата
Сравнение программ антиплагиата
Хеширование с учетом локальности - алгоритмический метод с использованием хеширования.
Поиск ближайшего соседа - Задача оптимизации в информатике
Обнаружение перефраза – автоматическое создание или распознавание перефразированного текста.
Колмогоровская сложность # Сжатие - используется для оценки сходства между последовательностями токенов в нескольких системах.
Обнаружение копирования видео

Литература

Кэрролл, Дж. (2002). Руководство по предотвращению плагиата в высшем образовании . Оксфорд: Оксфордский центр развития персонала и обучения, Оксфордский университет Брукса. (96 стр.), ISBN 1873576560
Зейдман, Б. (2011). Справочник программного IP-детектива . Прентис Холл. (480 стр.), ISBN 0137035330