Википедия:Детектор дубликатов

WP:дупдет

Детектор дубликатов — это инструмент, используемый для сравнения любых двух веб-страниц с целью выявления текста, скопированного с одной на другую. Он может сравнивать две страницы Википедии друг с другом, две версии страницы Википедии друг с другом, страницу Википедии (текущую или старую версию) с внешней страницей или две внешние страницы друг с другом. Детектор дубликатов находит отрывки, в которых текст на двух страницах одинаков. Количество слов для сопоставления является переменным, но по умолчанию установлено равным 2.

Использование

Этот инструмент часто используется для проверки авторских прав в Википедии, но его можно использовать и другими способами, например, для поиска цитат в биографиях ныне живущих людей, взятых из большого PDF-файла, для проверки точности .

Инструмент используется путем предоставления URL-адресов двух веб-сайтов для сравнения (или, если используется расширенная версия, путем загрузки любого документа с вашего компьютера). Он поддерживает текстовые, HTML и PDF- документы. Для других типов документов проверьте кэш Google на наличие HTML-версии, выполнив поиск Google по запросу «cache:URL». Чтобы инструмент работал быстрее для очень больших документов, увеличьте минимальное количество слов как минимум до 3. Для исходных документов, содержащих разбросанные цифры, вам, возможно, придется установить флажок «Удалить цифры», чтобы получить наилучшие совпадения. У вас есть возможность удалить цитаты из совпадений.

Детектор дубликатов может видеть текст статьи, скрытый шаблонами вроде {{ copyvio }} , поскольку текст все еще находится в исходном коде HTML-страницы, но не может видеть текст, который был удален. В этом случае вам нужно использовать URL старой версии.

Для оценки авторских прав или плагиата

Детектор дубликатов лучше всего находит буквальное дублирование, а более крупные строки чисел указывают на обширные отрывки, скопированные дословно. Его также можно использовать для помощи в обнаружении близкого перефразирования. Всегда требуется человеческое суждение. Если высвечиваются текстовые совпадения, отрывки с идентичным текстом можно прочитать и сравнить, чтобы увидеть, являются ли скопированные отрывки нетворческими и помещены ли в текст, который в целом достаточно переписан. Wikipedia:Close paraphrasing предлагает некоторые рекомендации по определению того, когда достаточно переписывания; вместе с Wikipedia:Plagiarism он может помочь определить, когда контент нетворческий. Совпадающий контент может обрабатываться несколькими способами. Например, если источник находится в общественном достоянии или имеет совместимую лицензию , его можно использовать как есть, если атрибуция обрабатывается в соответствии с требованиями лицензирования и Wikipedia:Plagiarism. В противном случае страницу, возможно, необходимо пересмотреть или, по крайней мере, пометить как {{ close paraphrasing }} , если она не обрабатывается в соответствии с WP:CV101 .

Лицензия

Исходный код PHP для Duplication Detector доступен по упрощенной лицензии BSD .

Смотрите также

Special:ComparePages — для сравнения внутренних страниц Википедии.

Внешние ссылки

Детектор дублирования на Toolforge