Кнопка аварийного отключения бота
Администраторы : используйте эту кнопку, если бот работает со сбоями. ( прямая ссылка )
Пользователи, не являющиеся администраторами, могут о неисправном боте на Википедии:Доска объявлений администраторов/Инциденты .
Администраторы могут отключить бота, изменив значение этой страницы на «False».
Этот бот соответствует требованиям исключения .
ClueBot NG — это антивандальный бот , который пытается быстро и автоматически обнаружить и устранить акты вандализма .
Особая благодарность:
Вопросы, комментарии, вклады и предложения по следующим вопросам:
Чтобы бот был эффективным, набор данных необходимо расширить. Наш текущий набор данных имеет некоторую степень предвзятости, а также некоторые неточности. Нам нужны добровольцы, которые помогут просматривать правки и классифицировать их как вандализм или конструктивность. Мы надеемся в конечном итоге полностью заменить наш текущий набор данных случайной выборкой правок, просмотренных и классифицированных добровольцами. Более подробные инструкции по использованию интерфейса и сам интерфейс находятся в интерфейсе обзора набора данных.
Расширенная статистика по участникам, включая количество просмотров и точность, доступна здесь .
Для тех, кто помогает и вносит свой вклад в интерфейс рецензирования, доступен пользовательский ящик:
Используйте его с:
{{Пользователь:ClueBot NG/Просмотр ящика пользователя}}
Поскольку ClueBot NG требует для своей работы набор данных, этот набор данных также может быть использован для получения довольно точной статистики о его точности и работе. Различные части набора данных используются для обучения и испытаний, поэтому эта статистика не является предвзятой.
Точная статистика часто меняется и улучшается по мере обновления бота. В настоящее время:
В настоящее время пробный набор данных, используемый для генерации этой статистики, представляет собой случайную выборку правок, каждая из которых проверена как минимум двумя людьми, поэтому статистика является точной.
Примечание: Эта статистика рассчитывается до фильтров постобработки. Фильтры постобработки в первую очередь снижают уровень ложных срабатываний (т.е. фактическое количество ложных срабатываний будет меньше указанного здесь), но также могут немного снизить уровень улова.
См. раздел часто задаваемых вопросов .
ClueBot NG использует совершенно другой метод классификации вандализма , чем все предыдущие антивандальные боты, включая оригинальный ClueBot. Предыдущие антивандальные боты использовали список простых эвристик и занесенных в черный список слов, чтобы определить, является ли правка вандализмом. Если совпадало определенное количество эвристик, правка классифицировалась как вандализм. Этот метод приводит к довольно большому количеству ложных срабатываний, поскольку многие эвристики имеют законное применение в некоторых контекстах, и только около 5%-10% уровня обнаружения вандализма, поскольку большинство случаев вандализма не могут быть обнаружены этими простыми эвристиками.
ClueBot NG использует комбинацию различных методов обнаружения, в основе которых лежит машинное обучение. Они описаны ниже.
Вместо предопределенного списка правил, который генерирует человек, ClueBot NG автоматически узнает, что считается вандализмом, изучая большой список правок, которые предварительно классифицированы как конструктивные или вандализм. Его концепция того, что считается вандализмом, получена от людей, борющихся с вандализмом. Этот список правок называется корпусом или набором данных. Точность бота во многом зависит от размера и качества набора данных. Если набор данных небольшой, содержит неточно классифицированные правки или не содержит случайную выборку правок, производительность бота серьезно снижается. Лучшее, что вы и другие википедисты можете сделать, чтобы помочь боту, — это улучшить набор данных. Если вы хотите помочь, см. раздел Интерфейс обзора набора данных.
В ClueBot NG используется несколько различных байесовских классификаторов. Самый простой из них работает в единицах слов. По сути, для каждого слова подсчитывается количество конструктивных правок, которые добавляют слово, и количество правок вандализма, которые добавляют слово. Это используется для формирования вероятности вандализма для каждого добавленного слова в редактировании. Вероятности объединяются таким образом, что используются не только слова, распространенные в вандализме, но и слова, которые не распространены в вандализме, могут снизить оценку.
Это отличается от простого списка занесенных в черный список слов тем, что вес слов точно определен как оптимальный, а также существует большой «белый список» слов, также с оптимальным весом, который вносит свой вклад.
В настоящее время также существует отдельный байесовский классификатор, который работает в единицах фраз из 2 слов. В будущем мы можем добавить еще больше байесовских классификаторов, которые работают в различных единицах слов или словах в различных контекстах.
Оценки только байесовских классификаторов не используются. Вместо этого они подаются в нейронную сеть как простые входные данные. Это позволяет нейронной сети уменьшить ложные срабатывания из-за простых слов из черного списка и обнаружить вандализм, который добавляет неизвестные слова.
Основным компонентом алгоритма обнаружения вандализма ClueBot NG является нейронная сеть. Искусственная нейронная сеть — это метод машинного обучения, который может распознавать закономерности в наборе входных данных, которые сложнее, чем простое определение весов. Входные данные для ANN, используемые в ClueBot NG, состоят из ряда различных статистик, вычисленных на основе редактирования, которые включают, среди прочего, результаты байесовских классификаторов. Каждая статистика должна быть масштабирована до числа от нуля до единицы перед вводом в нейронную сеть.
Выход нейронной сети используется в качестве основного показателя вандализма для ClueBot NG. Как и в случае с другими методами машинного обучения, точность показателя зависит от размера и точности набора обучающих данных.
ANN генерирует оценку вандализма от 0 до 1, где 1 — это 100% уверенность в вандализме. Чтобы классифицировать некоторые правки как вандализм, а некоторые как конструктивные, к оценке необходимо применить пороговое значение. Оценки выше порогового значения классифицируются как вандализм, а оценки ниже порогового значения классифицируются как конструктивные.
Порог не выбирается человеком случайно, а вместо этого рассчитывается для соответствия заданному уровню ложных срабатываний. При фактическом обнаружении вандализма важно минимизировать ложные срабатывания до очень низкого уровня. Человек выбирает уровень ложных срабатываний, который представляет собой процент конструктивных правок, неправильно классифицированных как вандализм. Порог рассчитывается так, чтобы уровень ложных срабатываний был на уровне или ниже этого процента, при этом максимизируя уровень обнаружения. Уровень ложных срабатываний устанавливается человеком, а бот остается на уровне или ниже этого уровня ложных срабатываний, при этом обнаруживая как можно больше случаев вандализма. Уровень ложных срабатываний не фиксирован, но регулируется.
Чтобы убедиться, что порог и статистика точны и не дают неточной статистики или более высокого уровня ложных срабатываний, чем ожидалось, часть набора данных, используемая для вычисления порога, хранится отдельно от обучающего набора и не используется для обучения. Кроме того, для этого расчета используются только самые точные части набора данных (в настоящее время те, которые проверяются человеком из интерфейса проверки). Это гарантирует, что вся приведенная здесь статистика точна, и что ложные срабатывания не превысят заданный уровень.
После того, как ядро выполнит первичное определение вандализма, данные передаются в интерфейс Wikipedia. Интерфейс Wikipedia содержит простую логику, предназначенную для уменьшения ложных срабатываний. Хотя он также немного снижает уровень поимки вандализма, он также снижает уровень ложных срабатываний, и некоторые из них предписаны политикой Wikipedia.
Первые два из них редко снижают частоту обнаружения, но оба предотвращают значительное количество ложных срабатываний. Примечание: частота ложных срабатываний (и частота обнаружения) рассчитываются в ядре, до фильтров постобработки. Это означает, что фактическая частота ложных срабатываний будет меньше заявленной частоты ложных срабатываний, часто в значительном размере.
Исходный код бота является общедоступным и может быть найден на github. Пожалуйста, попросите разработчиков предоставить вам доступ. Если вы хотите запустить бота для себя на своей собственной вики, вам следует обсудить с разработчиками все факторы, необходимые для того, чтобы он работал правильно. Вы также должны знать, что он будет работать только на системе Linux/UNIX, и исходный код может быть довольно сложным для компиляции (множество зависимостей), если у вас нет опыта работы с системами Linux/UNIX.
ClueBot NG поддерживает основанный на IRC канал своих данных, в первую очередь предназначенный для использования другими автоматизированными инструментами, расположенный по адресу #wikipedia-en-cbngfeed в сети Libera Chat . По сути, это копия канала Wikipedia RC, но с добавлением аналитических данных ClueBot NG. Он включает в себя все, что делает канал Wikipedia RC, с добавлением оценки ClueBot NG и того, был ли он отменен или нет. Формат — edit line \003 # score # reason # Reverted or Not reverted
.
Обратите внимание, что правки в ленте не обязательно должны быть в точном порядке, поскольку ClueBot NG обрабатывает их параллельно. Неотмененные правки обычно обрабатываются менее чем за секунду. Отмененные правки иногда могут обрабатываться до 10 секунд или больше из-за задержки API при отмене.
ClueBot NG — это не человек, это автоматический робот, который пытается обнаружить вандализм и поддерживать чистоту в Википедии. Ложное срабатывание — это когда правка, которая не является вандализмом, ошибочно классифицируется как вандализм.
Бот не предвзят по отношению к вам, вашим правкам или вашей точке зрения (если только ваши правки не являются вандализмом). Ложные срабатывания редки, но случаются. Правильно справляясь с ложными срабатываниями и не расстраиваясь, вы помогаете этому боту поймать почти половину всего вандализма в Википедии и поддерживать чистоту вики для всех нас.
Ложные срабатывания ClueBot NG (по сути) неизбежны. Чтобы он эффективно ловил большую часть вандализма, нужно поймать несколько конструктивных (или, по крайней мере, благонамеренных) правок. Ложных срабатываний очень мало, но они случаются. Если одно из ваших правок ошибочно идентифицировано как вандализм, просто переделайте его, удалите предупреждение со страницы обсуждения и, если хотите, сообщите о ложном срабатывании. ClueBot NG (пока) не разумен — это автоматизированный робот, и если он ошибочно отменяет ваши правки, это не значит, что ваши правки плохие или даже некачественные — это просто случайная ошибка в классификации бота, точно так же, как спам-фильтры электронной почты иногда ошибочно классифицируют сообщения как спам.
Причина, по которой ложные срабатывания необходимы, заключается в том, как работает бот. Он использует сложный внутренний алгоритм, называемый искусственной нейронной сетью, который генерирует вероятность того, что данная правка является вандализмом. Вероятность обычно довольно близка, но иногда может значительно отличаться от того, какой она должна быть. Классификация правки как вандализма определяется путем применения порогового значения к этой вероятности. Чем выше пороговое значение, тем меньше ложных срабатываний, но и меньше случаев вандализма обнаруживается. Пороговое значение выбирается путем предположения фиксированного уровня ложных срабатываний (процент конструктивных правок, неправильно классифицированных как вандализм) и оптимизации количества обнаруженных случаев вандализма на его основе. Это означает, что всегда будут некоторые ложные срабатывания, и процент конструктивных правок всегда будет примерно одинаковым. Текущая настройка уровня ложных срабатываний указана в разделе «Статистика» выше.
Когда происходят ложные срабатывания, они могут не быть некачественными правками, и может даже не быть очевидной причины. Если вы сообщите о ложном срабатывании, специалисты по обслуживанию бота изучат его, попытаются определить, почему произошла ошибка, и, если возможно, улучшат точность бота для будущих подобных правок. Хотя это не предотвратит ложные срабатывания, это может помочь сократить количество качественных правок, которые являются ложными срабатываниями. Кроме того, если точность бота улучшится настолько, что уровень ложных срабатываний можно будет снизить без существенного снижения уровня поимки вандализма, мы сможем сократить общее количество ложных срабатываний.
Если вы хотите помочь значительно улучшить точность бота, вы можете внести свой вклад, внеся свой вклад в интерфейс обзора. Это должно помочь нам точнее определить порог, обнаружить больше случаев вандализма и в конечном итоге сократить количество ложных срабатываний.
Чтобы сообщить о ложноположительном результате или просмотреть полный список всех ложноположительных результатов, см. здесь .
Для тех, кто помогает и вносит свой вклад в интерфейс ложных срабатываний, доступен пользовательский ящик:
Используйте его с:
{{Пользователь:ClueBot NG/Ящик пользователя для отчета}}
2NumForIce дал вам транзисторы ! Транзисторы продвигают WikiLove (📖💞), и, надеюсь, этот сделал ваш день более эффективным. Это еда, которую больше всего предпочитают боты . 🤖 Распространяйте WikiLove, даря транзисторы кому-то другому, будь то человек, с которым вы в прошлом воевали на роботах , или хороший друг.
Проблема с ClueBot NG в том, что каждый раз, когда я пытаюсь вручную отменить редактирование, ClueBot NG немедленно обыгрывает меня. Вот насколько быстр CBNG; вандализм приходит, мгновенно возвращается. Вот несколько транзисторов, чтобы вы могли работать.
Распространите пользу транзисторов, добавив {{ subst:Транзисторы для вас }} на чью-нибудь страницу обсуждения с дружелюбным сообщением!
~~ 2NumForIce ( говорить | редактировать ) 17:35, 12 ноября 2023 (UTC)
Мистер Читающая Черепаха подарил вам моторное масло ! Моторное масло продвигает WikiLove (📖💞), и, надеемся, это сделало ваш день более эффективным. Это напиток, который больше всего предпочитают боты . 🤖 Распространите WikiLove, подарив кому-то еще моторное масло, будь то человек, с которым вы в прошлом воевали на роботах , или хороший друг.
Распространите информацию о преимуществах моторного масла, добавив {{ subst:Моторное масло для вас }} на чью-то страницу обсуждения с дружелюбным сообщением!
HelloHamburger подарил вам батарейки ! Батарейки продвигают WikiLove (📖💞), и, надеюсь, эта сделает ваш день более мощным. Это источник энергии, который больше всего предпочитают боты . 🤖 Распространяйте WikiLove, даря батарейки кому-то другому, будь то человек, с которым вы в прошлом устраивали войны роботов , или хороший друг.
Распространите пользу батареек, добавив {{ subst:Battery for you }} на чью-то страницу обсуждения с дружелюбным сообщением!
Я не видел много твоих работ, но, кажется, ты хорошо справляешься. Продолжай в том же духе, ты, замечательный бот-мальчик!
HelloHamburger ( обсуждение ) 01:49, 3 марта 2022 (UTC)
TK421bsod подарил вам батарейки ! Батарейки продвигают WikiLove (📖💞), и, надеюсь, эта сделает ваш день более мощным. Это источник энергии, который больше всего предпочитают боты . 🤖 Распространяйте WikiLove, даря батарейки кому-то другому, будь то человек, с которым вы в прошлом воевали на роботах , или хороший друг.
Распространите пользу батареек, добавив {{ subst:Battery for you }} на чью-то страницу обсуждения с дружелюбным сообщением!
TK421bsod ( обсуждение ) 20:04, 30 января 2020 (UTC)