stringtranslate.com

Обнаружение схожести контента

Обнаружение плагиата или обнаружение схожести контента — это процесс обнаружения случаев плагиата или нарушения авторских прав в работе или документе. Широкое использование компьютеров и появление Интернета упростили плагиат чужих работ. [1] [2]

Обнаружение плагиата может осуществляться различными способами. Человеческое обнаружение является наиболее традиционной формой выявления плагиата в письменных работах. Это может быть длительной и трудоемкой задачей для читателя [2] , а также может привести к несоответствиям в том, как плагиат определяется в организации. [3] Программное обеспечение для сопоставления текста (TMS), которое также называют «программным обеспечением для обнаружения плагиата» или «программным обеспечением для борьбы с плагиатом», стало широко доступно как в виде коммерчески доступных продуктов, так и в виде программного обеспечения с открытым исходным кодом [ нужны примеры ] . TMS на самом деле не обнаруживает плагиат как таковой, а вместо этого находит определенные отрывки текста в одном документе, которые соответствуют тексту в другом документе.

Программное обеспечение для обнаружения плагиата

Компьютерное обнаружение плагиата — это задача информационного поиска (ИИ) , поддерживаемая специализированными ИИ-системами, которая называется системой обнаружения плагиата (PDS) или системой обнаружения схожести документов. Систематический обзор литературы 2019 года [4] представляет собой обзор современных методов обнаружения плагиата.

В текстовых документах

Системы обнаружения сходства текста реализуют один из двух общих подходов обнаружения, один из которых является внешним, а другой — внутренним. [5] Внешние системы обнаружения сравнивают подозрительный документ с эталонной коллекцией, которая представляет собой набор документов, предположительно подлинных. [6] На основе выбранной модели документа и предопределенных критериев сходства задача обнаружения состоит в том, чтобы извлечь все документы, содержащие текст, который в степени выше выбранного порога похож на текст в подозрительном документе. [7] Внутренние PDS анализируют только текст, который должен быть оценен, не выполняя сравнения с внешними документами. Этот подход направлен на распознавание изменений в уникальном стиле письма автора как индикатора потенциального плагиата. [8] [9] PDS не способны надежно идентифицировать плагиат без человеческого суждения. Сходства и особенности стиля письма вычисляются с помощью предопределенных моделей документов и могут представлять ложные срабатывания. [10] [11] [12] [13] [14]

Эффективность этих инструментов в высших учебных заведениях

Было проведено исследование для проверки эффективности программного обеспечения для обнаружения сходства в условиях высшего образования. В одной части исследования одной группе студентов было поручено написать работу. Эти студенты были сначала проинформированы о плагиате и проинформированы, что их работа должна быть пропущена через систему обнаружения сходства контента. Второй группе студентов было поручено написать работу без какой-либо информации о плагиате. Исследователи ожидали найти более низкие показатели в первой группе, но обнаружили примерно одинаковые показатели плагиата в обеих группах. [15]

Подходы

На рисунке ниже представлена ​​классификация всех подходов обнаружения, которые в настоящее время используются для компьютерного обнаружения схожести контента. Подходы характеризуются типом оценки схожести, которую они проводят: глобальная или локальная. Глобальные подходы оценки схожести используют характеристики, взятые из более крупных частей текста или документа в целом, для вычисления схожести, в то время как локальные методы проверяют только предварительно выбранные текстовые сегменты в качестве входных данных. [ необходима цитата ]

Классификация методов компьютерного обнаружения плагиата [16]
Дактилоскопирование

В настоящее время отпечатки пальцев являются наиболее широко применяемым подходом к обнаружению сходства контента. Этот метод формирует репрезентативные дайджесты документов, выбирая из них набор из нескольких подстрок ( n-грамм ). Наборы представляют отпечатки пальцев , а их элементы называются мелочами. [17] [18] Подозрительный документ проверяется на плагиат путем вычисления его отпечатка пальца и запроса мелочей с предварительно вычисленным индексом отпечатков пальцев для всех документов справочной коллекции. Совпадение мелочей с таковыми из других документов указывает на общие текстовые сегменты и предполагает потенциальный плагиат, если они превышают выбранный порог сходства. [19] Вычислительные ресурсы и время являются ограничивающими факторами для отпечатков пальцев, поэтому этот метод обычно сравнивает только подмножество мелочей, чтобы ускорить вычисления и обеспечить проверку в очень больших коллекциях, таких как Интернет. [17]

Сопоставление строк

Сопоставление строк является распространенным подходом, используемым в информатике. Применительно к проблеме обнаружения плагиата документы сравниваются на предмет дословного совпадения текста. Для решения этой задачи было предложено множество методов, некоторые из которых были адаптированы для внешнего обнаружения плагиата. Проверка подозрительного документа в этой обстановке требует вычисления и хранения эффективно сопоставимых представлений для всех документов в справочной коллекции для их попарного сравнения. Как правило, для этой задачи использовались модели суффиксных документов, такие как деревья суффиксов или векторы суффиксов. Тем не менее, сопоставление подстрок остается вычислительно дорогим, что делает его нежизнеспособным решением для проверки больших коллекций документов. [20] [21] [22]

Мешок слов

Анализ мешка слов представляет собой принятие поиска векторного пространства , традиционной концепции IR, в область обнаружения сходства контента. Документы представлены как один или несколько векторов, например, для различных частей документа, которые используются для парных вычислений сходства. Вычисление сходства затем может опираться на традиционную меру сходства косинуса или на более сложные меры сходства. [23] [24] [25]

Анализ цитирования

Обнаружение плагиата на основе цитирования (CbPD) [26] основано на анализе цитирования и является единственным подходом к обнаружению плагиата, который не опирается на текстовое сходство. [27] CbPD проверяет цитирование и справочную информацию в текстах, чтобы выявить схожие шаблоны в последовательностях цитирования. Таким образом, этот подход подходит для научных текстов или других академических документов, содержащих цитаты. Анализ цитирования для обнаружения плагиата является относительно молодой концепцией. Он не был принят коммерческим программным обеспечением, но существует первый прототип системы обнаружения плагиата на основе цитирования. [28] Подобный порядок и близость цитат в исследованных документах являются основными критериями, используемыми для вычисления сходства шаблонов цитирования. Шаблоны цитирования представляют собой подпоследовательности, не эксклюзивно содержащие цитаты, общие для сравниваемых документов. [27] [29] Факторы, включая абсолютное число или относительную долю общих ссылок в шаблоне, а также вероятность того, что ссылки встречаются в документе одновременно, также учитываются для количественной оценки степени сходства шаблонов. [27] [29] [30] [31]

Стилометрия

Стилометрия включает статистические методы количественной оценки уникального стиля письма автора [32] [33] и в основном используется для атрибуции авторства или обнаружения внутреннего плагиата. [34] Обнаружение плагиата путем атрибуции авторства требует проверки того, совпадает ли стиль письма подозрительного документа, написанного предположительно определенным автором, со стилем корпуса документов, написанных тем же автором. С другой стороны, обнаружение внутреннего плагиата выявляет плагиат на основе внутренних доказательств в подозрительном документе, не сравнивая его с другими документами. Это выполняется путем построения и сравнения стилометрических моделей для различных текстовых сегментов подозрительного документа, и отрывки, которые стилистически отличаются от других, помечаются как потенциально плагиатные/нарушенные. [8] Хотя их просто извлечь, n-граммы символов , как доказано, являются одними из лучших стилометрических признаков для обнаружения внутреннего плагиата. [35]

Нейронные сети

Более поздние подходы к оценке схожести контента с использованием нейронных сетей достигли значительно большей точности, но требуют больших вычислительных затрат. [36] Традиционные подходы нейронных сетей встраивают обе части контента в семантические векторные вложения для вычисления их схожести, которая часто является их косинусной схожестью. Более продвинутые методы выполняют сквозное прогнозирование схожести или классификации с использованием архитектуры Transformer . [37] [38] Обнаружение парафраза особенно выигрывает от высокопараметризованных предварительно обученных моделей.

Производительность

Сравнительные оценки систем обнаружения схожести контента [6] [39] [40] [41] [42] [43] показывают, что их производительность зависит от типа присутствующего плагиата (см. рисунок). За исключением анализа шаблонов цитирования, все подходы обнаружения основаны на текстовом сходстве. Поэтому симптоматично, что точность обнаружения снижается по мере того, как случаи плагиата становятся более запутанными.

Эффективность обнаружения плагиата с помощью компьютерных методов в зависимости от типа имеющегося плагиата

Буквальные копии, также известные как плагиат копирования и вставки или явное нарушение авторских прав, или скромно замаскированные случаи плагиата могут быть обнаружены с высокой точностью текущими внешними PDS, если источник доступен для программного обеспечения. В частности, процедуры сопоставления подстрок достигают хорошей производительности для плагиата копирования и вставки, поскольку они обычно используют модели документов без потерь, такие как деревья суффиксов . Производительность систем, использующих дактилоскопию или анализ мешка слов при обнаружении копий, зависит от потери информации, понесенной используемой моделью документа. Применяя гибкие стратегии фрагментации и выбора, они лучше способны обнаруживать умеренные формы замаскированного плагиата по сравнению с процедурами сопоставления подстрок.

Обнаружение внутреннего плагиата с помощью стилометрии может в некоторой степени преодолеть границы текстового сходства путем сравнения лингвистического сходства. Учитывая, что стилистические различия между плагиатом и оригинальными сегментами значительны и могут быть надежно идентифицированы, стилометрия может помочь в выявлении замаскированного и перефразированного плагиата. Стилометрические сравнения, скорее всего, не сработают в случаях, когда сегменты сильно перефразированы до такой степени, что они больше напоминают личный стиль письма плагиатора, или если текст был составлен несколькими авторами. Результаты Международных конкурсов по обнаружению плагиата, проведенных в 2009, 2010 и 2011 годах, [6] [42] [43], а также эксперименты, проведенные Штейном, [34], показывают, что стилометрический анализ, по-видимому, надежно работает только для документов длиной в несколько тысяч или десятков тысяч слов, что ограничивает применимость метода к настройкам обнаружения плагиата с помощью компьютера.

Все больше исследований проводится по методам и системам, способным обнаруживать плагиат перевода. В настоящее время обнаружение плагиата между языками (CLPD) не рассматривается как зрелая технология [44] , и соответствующие системы не смогли достичь удовлетворительных результатов обнаружения на практике. [41]

Обнаружение плагиата на основе цитирования с использованием анализа шаблонов цитирования способно идентифицировать более сильные парафразы и переводы с более высокими показателями успеха по сравнению с другими подходами обнаружения, поскольку он не зависит от текстовых характеристик. [27] [30] Однако, поскольку анализ шаблонов цитирования зависит от наличия достаточной информации о цитировании, он ограничен академическими текстами. Он уступает подходам на основе текста в обнаружении более коротких плагиатных отрывков, которые типичны для случаев плагиата «копировать-вставить» или «встряхнуть-вставить»; последний относится к смешиванию слегка измененных фрагментов из разных источников. [45]

Программное обеспечение

Разработка программного обеспечения для определения схожести контента, используемого в текстовых документах, характеризуется рядом факторов: [46]

Большинство крупномасштабных систем обнаружения плагиата используют большие внутренние базы данных (в дополнение к другим ресурсам), которые растут с каждым дополнительным документом, представленным для анализа. Однако эта функция рассматривается некоторыми как нарушение авторских прав студентов . [ необходима цитата ]

В исходном коде

Плагиат в исходном коде компьютера также встречается часто и требует иных инструментов, чем те, которые используются для сравнения текста в документе. Значительные исследования были посвящены академическому плагиату исходного кода. [47]

Отличительной чертой плагиата исходного кода является то, что здесь нет фабрик эссе , которые можно найти в традиционном плагиате. Поскольку большинство заданий по программированию предполагают, что студенты будут писать программы с очень конкретными требованиями, очень сложно найти существующие программы, которые уже им соответствуют. Поскольку интеграция внешнего кода часто сложнее, чем написание его с нуля, большинство студентов, занимающихся плагиатом, предпочитают делать это у своих коллег.

По мнению Роя и Корди, [48] алгоритмы обнаружения сходства исходного кода можно классифицировать как основанные на

Предыдущая классификация была разработана для рефакторинга кода , а не для обнаружения академического плагиата (важной целью рефакторинга является избежание дублирования кода , называемого в литературе клонами кода). Вышеуказанные подходы эффективны против разных уровней сходства; низкоуровневое сходство относится к идентичному тексту, в то время как высокоуровневое сходство может быть обусловлено схожими спецификациями. В академической среде, когда от всех студентов ожидается кодирование в соответствии с одинаковыми спецификациями, функционально эквивалентный код (с высокоуровневым сходством) полностью ожидается, и только низкоуровневое сходство рассматривается как доказательство мошенничества.

Разница между плагиатом и авторским правом

Плагиат и авторское право являются важнейшими концепциями в академическом и творческом письме , которые должны понимать писатели, исследователи и студенты. Хотя они могут звучать похоже, это не так; для решения каждой из них можно использовать разные стратегии. [49]

Алгоритмы

Для обнаружения дублирующего кода было предложено несколько различных алгоритмов. Например:

Сложности с использованием программного обеспечения для сопоставления текста с целью обнаружения плагиата

Были задокументированы различные осложнения, связанные с использованием программного обеспечения для сопоставления текста при обнаружении плагиата. Одной из наиболее распространенных задокументированных проблем является проблема прав интеллектуальной собственности. Основной аргумент заключается в том, что материалы должны быть добавлены в базу данных для того, чтобы TMS эффективно определяла соответствие, но добавление материалов пользователей в такую ​​базу данных может нарушить их права интеллектуальной собственности. Этот вопрос поднимался в ряде судебных дел.

Дополнительная сложность с использованием TMS заключается в том, что программное обеспечение находит только точные совпадения с другим текстом. Например, оно не выявляет плохо перефразированные работы или практику плагиата с использованием достаточного количества замен слов, чтобы избежать обнаружения программным обеспечением, что известно как рогетинг .

Смотрите также

Ссылки

  1. ^ Калвин, Финтан; Ланкастер, Томас (2001). «Плагиат, профилактика, сдерживание и обнаружение». CiteSeerX  10.1.1.107.178 . Архивировано из оригинала 18 апреля 2021 г. . Получено 11 ноября 2022 г. – через The Higher Education Academy .
  2. ^ ab Bretag, T. , & Mahmud, S. (2009). Модель определения студенческого плагиата: электронное обнаружение и академическое суждение. Журнал университетской практики преподавания и обучения, 6 (1). Получено с http://ro.uow.edu.au/jutlp/vol6/iss1/6
  3. ^ Macdonald, R., & Carroll, J. (2006). Плагиат — сложная проблема, требующая целостного институционального подхода. Assessment & Evaluation in Higher Education, 31 (2), 233–245. doi :10.1080/02602930500262536
  4. ^ Фолтынек, Томаш; Меушке, Норман; Гипп, Бела (16 октября 2019 г.). «Обнаружение академического плагиата: систематический обзор литературы». Обзоры вычислительной техники ACM . 52 (6): 1–42. дои : 10.1145/3345317 .
  5. ^ Stein, Benno; Koppel, Moshe; Stamatatos, Efstathios (декабрь 2007 г.), «Анализ плагиата, идентификация авторства и обнаружение почти дубликатов PAN'07» (PDF) , Форум SIGIR , 41 (2): 68, doi :10.1145/1328964.1328976, S2CID  6379659, архивировано из оригинала (PDF) 2 апреля 2012 г. , извлечено 7 октября 2011 г.
  6. ^ abc Potthast, Martin; Stein, Benno; Eiselt, Andreas; Barrón-Cedeño, Alberto; Rosso, Paolo (2009), "Обзор 1-го международного конкурса по обнаружению плагиата", PAN09 - 3-й семинар по выявлению плагиата, авторства и неправомерного использования социального программного обеспечения и 1-й международный конкурс по обнаружению плагиата (PDF) , CEUR Workshop Proceedings, т. 502, стр. 1–9, ISSN  1613-0073, архивировано из оригинала (PDF) 2 апреля 2012 г.
  7. ^ Штейн, Бенно; Мейер цу Айссен, Свен; Поттхаст, Мартин (2007), «Стратегии извлечения плагиатных документов», Труды 30-й ежегодной международной конференции ACM SIGIR (PDF) , ACM, стр. 825–826, doi :10.1145/1277741.1277928, ISBN 978-1-59593-597-7, S2CID  3898511, заархивировано из оригинала (PDF) 2 апреля 2012 г. , извлечено 7 октября 2011 г.
  8. ^ ab Meyer zu Eissen, Sven; Stein, Benno (2006), "Intrinsic Plagiarism Detection", Advances in Information Retrieval 28th European Conference on IR Research, ECIR 2006, Лондон, Великобритания, 10–12 апреля 2006 г. Труды (PDF) , Lecture Notes in Computer Science, т. 3936, Springer, стр. 565–569, CiteSeerX 10.1.1.110.5366 , doi :10.1007/11735106_66, ISBN  978-3-540-33347-0, заархивировано из оригинала (PDF) 2 апреля 2012 г. , извлечено 7 октября 2011 г.
  9. ^ Бенсалем, Имене (2020). «Внутреннее обнаружение плагиата: обзор». Обнаружение плагиата: фокус на внутреннем подходе и оценке на арабском языке (диссертация на соискание степени доктора философии) . Университет Константина 2. doi : 10.13140/RG.2.2.25727.84641.
  10. ^ Бао, Цзюнь-Пэн; Малкольм, Джеймс А. (2006), «Сходство текстов в научных конференциях», 2-я Международная конференция по плагиату (PDF) , Northumbria University Press, архивировано из оригинала (PDF) 16 сентября 2018 г. , извлечено 7 октября 2011 г.
  11. ^ Клаф, Пол (2000), Плагиат в естественных и программных языках. Обзор современных инструментов и технологий (PDF) (Технический отчет), Кафедра компьютерных наук, Шеффилдский университет, архивировано из оригинала (PDF) 18 августа 2011 г.
  12. ^ Калвин, Финтан; Ланкастер, Томас (2001), «Проблемы плагиата в высшем образовании» (PDF) , Vine , 31 (2): 36–41, doi :10.1108/03055720010804005, архивировано из оригинала (PDF) 5 апреля 2012 г.
  13. ^ Ланкастер, Томас (2003), Эффективное и действенное обнаружение плагиата (кандидатская диссертация), Факультет вычислительной техники, информационных систем и математики Университета Саут-Бэнк
  14. ^ Маурер, Герман; Зака, Билал (2007), «Плагиат — проблема и как с ним бороться», Труды Всемирной конференции по образовательным мультимедиа, гипермедиа и телекоммуникациям 2007, AACE, стр. 4451–4458, ISBN 9781880094624
  15. ^ Youmans, Robert J. (ноябрь 2011 г.). «Снижает ли внедрение программного обеспечения для обнаружения плагиата в высшем образовании плагиат?». Исследования в области высшего образования . 36 (7): 749–761. doi :10.1080/03075079.2010.523457. S2CID  144143548.
  16. ^ Meuschke, Norman; Gipp, Bela (2013), «Современное состояние обнаружения академического плагиата» (PDF) , International Journal for Educational Integrity , 9 (1): 50–71, doi :10.5281/zenodo.3482941 , получено 15 февраля 2024 г.
  17. ^ ab Hoad, Timothy; Zobel, Justin (2003), "Methods for Identifying Versioned and Plagiarised Documents" (PDF) , Журнал Американского общества информационной науки и технологий , 54 (3): 203–215, CiteSeerX 10.1.1.18.2680 , doi :10.1002/asi.10170, архивировано из оригинала (PDF) 30 апреля 2015 г. , извлечено 14 октября 2014 г. 
  18. ^ Stein, Benno (июль 2005 г.), «Fuzzy-Fingerprints for Text-Based Information Retrieval», Труды I-KNOW '05, 5-я Международная конференция по управлению знаниями, Грац, Австрия (PDF) , Springer, Know-Center, стр. 572–579, архивировано из оригинала (PDF) 2 апреля 2012 г. , извлечено 7 октября 2011 г.
  19. ^ Брин, Сергей; Дэвис, Джеймс; Гарсия-Молина, Гектор (1995), «Механизмы обнаружения копирования для цифровых документов», Труды Международной конференции ACM SIGMOD 1995 года по управлению данными (PDF) , ACM, стр. 398–409, CiteSeerX 10.1.1.49.1567 , doi :10.1145/223784.223855, ISBN  978-1-59593-060-6, S2CID  8652205, архивировано из оригинала (PDF) 18 августа 2016 г. , извлечено 7 октября 2011 г.
  20. ^ Моностори, Кристиан; Заславский, Аркадий; Шмидт, Хайнц (2000), «Система обнаружения перекрытия документов для распределенных цифровых библиотек», Труды пятой конференции ACM по цифровым библиотекам (PDF) , ACM, стр. 226–227, doi :10.1145/336597.336667, ISBN 978-1-58113-231-1, S2CID  5796686, заархивировано из оригинала (PDF) 15 апреля 2012 г. , извлечено 7 октября 2011 г.
  21. Бейкер, Бренда С. (февраль 1993 г.), О поиске дубликатов в строках и программном обеспечении (технический отчет), AT&T Bell Laboratories, Нью-Джерси, архивировано из оригинала (gs) 30 октября 2007 г.
  22. ^ Хмелев, Дмитрий В.; Тихан, Уильям Дж. (2003), «Мера, основанная на повторениях, для проверки текстовых коллекций и категоризации текстов», SIGIR'03: Труды 26-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска , ACM, стр. 104–110, CiteSeerX 10.1.1.9.6155 , doi :10.1145/860435.860456, ISBN  978-1581136463, S2CID  7316639
  23. ^ Си, Антонио; Леонг, Хонг Ва; Лау, Райнсон WH (1997), «CHECK: Система обнаружения плагиата в документах», SAC '97: Труды симпозиума ACM 1997 года по прикладным вычислениям (PDF) , ACM, стр. 70–77, doi :10.1145/331697.335176, ISBN 978-0-89791-850-3, S2CID  15273799
  24. ^ Дреер, Хайнц (2007), «Автоматический концептуальный анализ для обнаружения плагиата» (PDF) , Информация и не только: Журнал проблем в области информирования науки и информационных технологий , 4 : 601–614, doi : 10.28945/974
  25. ^ Мур, Маркус; Цехнер, Марио; Керн, Роман; Гранитцер, Михаэль (2009), «Обнаружение внешнего и внутреннего плагиата с использованием моделей векторного пространства», PAN09 - 3-й семинар по выявлению плагиата, авторства и неправомерного использования социального программного обеспечения и 1-й международный конкурс по обнаружению плагиата (PDF) , CEUR Workshop Proceedings, т. 502, стр. 47–55, ISSN  1613-0073, архивировано из оригинала (PDF) 2 апреля 2012 г.
  26. ^ Гипп, Бела (2014), Обнаружение плагиата на основе цитирования, Springer Vieweg Research, ISBN 978-3-658-06393-1
  27. ^ abcd Гипп, Бела; Беел, Йоран (июнь 2010 г.), «Обнаружение плагиата на основе цитирования — новый подход к независимому выявлению плагиатного языка в работах», Труды 21-й конференции ACM по гипертексту и гипермедиа (HT'10) (PDF) , ACM, стр. 273–274, doi :10.1145/1810617.1810671, ISBN 978-1-4503-0041-4, S2CID  2668037, заархивировано из оригинала (PDF) 25 апреля 2012 г. , извлечено 21 октября 2011 г.
  28. ^ Гипп, Бела; Мойшке, Норман; Брайтингер, Коринна; Липински, Марио; Нюрнбергер, Андреас (28 июля 2013 г.), «Демонстрация анализа шаблонов цитирования для обнаружения плагиата», Труды 36-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска (PDF) , ACM, стр. 1119, doi :10.1145/2484028.2484214, ISBN 9781450320344, S2CID  2106222
  29. ^ ab Gipp, Bela; Meuschke, Norman (сентябрь 2011 г.), «Алгоритмы сопоставления шаблонов цитирования для обнаружения плагиата на основе цитирования: жадное цитирование, фрагментация цитирования и самая длинная общая последовательность цитирования», Труды 11-го симпозиума ACM по проектированию документов (DocEng2011) (PDF) , ACM, стр. 249–258, doi :10.1145/2034691.2034741, ISBN 978-1-4503-0863-2, S2CID  207190305, заархивировано из оригинала (PDF) 25 апреля 2012 г. , извлечено 7 октября 2011 г.
  30. ^ ab Gipp, Bela; Meuschke, Norman; Beel, Jöran (июнь 2011 г.), «Сравнительная оценка подходов к обнаружению плагиата на основе текста и цитирования с использованием GuttenPlag», Труды 11-й совместной конференции ACM/IEEE-CS по цифровым библиотекам (JCDL'11) (PDF) , ACM, стр. 255–258, CiteSeerX 10.1.1.736.4865 , doi :10.1145/1998076.1998124, ISBN  978-1-4503-0744-4, S2CID  3683238, заархивировано из оригинала (PDF) 25 апреля 2012 г. , извлечено 7 октября 2011 г.
  31. ^ Гипп, Бела; Бил, Йоран (июль 2009 г.), «Анализ близости цитирования (CPA) — новый подход к выявлению связанных работ на основе анализа совместного цитирования», Труды 12-й Международной конференции по наукометрии и информетрии (ISSI'09) (PDF) , Международное общество наукометрии и информетрии, стр. 571–575, ISSN  2175-1935, архивировано из оригинала (PDF) 13 сентября 2012 г. , извлечено 7 октября 2011 г.
  32. ^ Холмс, Дэвид И. (1998), «Эволюция стилометрии в гуманитарной науке», Литературная и лингвистическая информатика , 13 (3): 111–117, doi :10.1093/llc/13.3.111
  33. ^ Юола, Патрик (2006), «Authorship Attribution» (PDF) , Foundations and Trends in Information Retrieval , 1 (3): 233–334, CiteSeerX 10.1.1.219.1605 , doi :10.1561/1500000005, ISSN  1554-0669, архивировано из оригинала (PDF) 24 октября 2020 г. , извлечено 7 октября 2011 г. 
  34. ^ ab Stein, Benno; Lipka, Nedim; Prettenhofer, Peter (2011), "Intrinsic Plagiarism Analysis" (PDF) , Language Resources and Evaluation , 45 (1): 63–82, doi :10.1007/s10579-010-9115-y, ISSN  1574-020X, S2CID  13426762, заархивировано из оригинала (PDF) 2 апреля 2012 г. , извлечено 7 октября 2011 г.
  35. ^ Бенсалем, Имене; Россо, Паоло; Чихи, Салим (2019). «Об использовании n-грамм символов как единственного внутреннего доказательства плагиата». Языковые ресурсы и оценка . 53 (3): 363–396. doi :10.1007/s10579-019-09444-w. hdl : 10251/159151 . S2CID  86630897.
  36. ^ Реймерс, Нильс; Гуревич, Ирина (2019). «Sentence-BERT: Встраивание предложений с использованием сиамских BERT-сетей». arXiv : 1908.10084 [cs.CL].
  37. ^ Лан, Увэй; Сюй, Вэй (2018). «Нейронные сетевые модели для идентификации парафраз, семантического текстового сходства, вывода на естественном языке и ответа на вопросы». Труды 27-й Международной конференции по компьютерной лингвистике . Санта-Фе, Нью-Мексико, США: Ассоциация компьютерной лингвистики: 3890–3902. arXiv : 1806.04330 .
  38. ^ Вале, Ян Филип; Руас, Терри; Фолтынек, Томаш; Мейшке, Норман; Гипп, Бела (2022), Смитс, Мальте (ред.), «Выявление плагиата, перефразированного машиной», Информация для лучшего мира: формирование глобального будущего , Конспект лекций по информатике, т. 13192, Cham: Springer International Publishing, стр. 393–413, arXiv : 2103.11909 , doi : 10.1007/978-3-030-96957-8_34, ISBN 978-3-030-96956-1, S2CID  232307572 , получено 6 октября 2022 г.
  39. ^ Portal Plagiat - Softwaretest 2004 (на немецком языке), HTW University of Applied Sciences Berlin, архивировано из оригинала 25 октября 2011 г. , извлечено 6 октября 2011 г.
  40. ^ Portal Plagiat - Softwaretest 2008 (на немецком языке), HTW University of Applied Sciences Berlin , получено 6 октября 2011 г.
  41. ^ ab Portal Plagiat - Softwaretest 2010 (на немецком языке), HTW University of Applied Sciences Berlin , получено 6 октября 2011 г.
  42. ^ ab Potthast, Martin; Barrón-Cedeño, Alberto; Eiselt, Andreas; Stein, Benno; Rosso, Paolo (2010), «Обзор 2-го Международного конкурса по обнаружению плагиата», Notebook Papers of CLEF 2010 LABs and Workshops, 22–23 сентября, Падуя, Италия (PDF) , архивировано из оригинала (PDF) 3 апреля 2012 г. , извлечено 7 октября 2011 г.
  43. ^ ab Potthast, Martin; Eiselt, Andreas; Barrón-Cedeño, Alberto; Stein, Benno; Rosso, Paolo (2011), «Обзор 3-го Международного конкурса по обнаружению плагиата», Notebook Papers of CLEF 2011 LABs and Workshops, 19–22 сентября, Амстердам, Нидерланды (PDF) , архивировано из оригинала (PDF) 2 апреля 2012 г. , извлечено 7 октября 2011 г.
  44. ^ Поттаст, Мартин; Баррон-Седеньо, Альберто; Штейн, Бенно; Россо, Паоло (2011), «Обнаружение межъязыкового плагиата» (PDF) , Языковые ресурсы и оценка , 45 (1): 45–62, doi : 10.1007/s10579-009-9114-z, hdl : 10251/37479 , ISSN  1574-020X, S2CID  14942239, заархивировано из оригинала (PDF) 26 ноября 2013 г. , получено 7 октября 2011 г.
  45. ^ Вебер-Вульф, Дебора (июнь 2008 г.), «О полезности программного обеспечения для обнаружения плагиата», в Трудах 3-й Международной конференции по плагиату, Ньюкасл-апон-Тайн (PDF) , заархивировано из оригинала (PDF) 1 октября 2013 г. , извлечено 29 сентября 2013 г.
  46. ^ Как проверить текст на плагиат
  47. ^ "Предотвращение и обнаружение плагиата - Онлайн-ресурсы по плагиату исходного кода" Архивировано 15 ноября 2012 г. на Wayback Machine . Академия высшего образования , Университет Ольстера .
  48. ^ Рой, Чанчал Кумар; Корди, Джеймс Р. (26 сентября 2007 г.). «Обзор исследований обнаружения клонов программного обеспечения». Школа вычислений, Университет Квинс, Канада .
  49. ^ Прасад, Сухани. «Плагиат и авторское право». CheckForPlag .
  50. ^ Бренда С. Бейкер . Программа для выявления дублированного кода. Computing Science and Statistics, 24:49–57, 1992.
  51. ^ Айра Д. Бакстер и др. Обнаружение клонов с использованием абстрактных синтаксических деревьев
  52. Визуальное обнаружение дублированного кода. Архивировано 29 июня 2006 г. на Wayback Machine Маттиасом Ригером и Стефаном Дюкассом.
  53. ^ Юань, И. и Го, И. CMCD: Обнаружение клонов кода на основе подсчета матриц, 18-я Азиатско-Тихоокеанская конференция по программной инженерии 2011 г. IEEE, декабрь 2011 г., стр. 250–257.
  54. ^ Чен, X., Ван, AY, и Темперо, ED (2014). Репликация и воспроизведение исследований обнаружения клонов кода. В ACSC (стр. 105-114).
  55. ^ Булычев, Петр и Мариус Минеа. «Обнаружение дубликатов кода с использованием антиунификации». Материалы весенне-летнего коллоквиума молодых исследователей по программной инженерии. № 2. Федеральное государственное бюджетное учреждение науки Институт системной программирования Российской академии наук, 2008.

Литература