Кнопка аварийного отключения бота
Администраторы : используйте эту кнопку, если бот работает со сбоями. ( прямая ссылка )
Пользователи, не являющиеся администраторами, могут о неисправном боте в Wikipedia:Доска объявлений администраторов/Инциденты .
Администраторы могут отключить бота, изменив значение этой страницы на «False».
Этот бот соответствует требованиям по исключению .
ClueBot NG — это антивандальный бот , который пытается быстро и автоматически обнаружить и предотвратить вандализм .
Особая благодарность:
Вопросы, комментарии, вклады и предложения относительно:
Чтобы бот был эффективным, набор данных необходимо расширить. Наш текущий набор данных имеет некоторую степень предвзятости, а также некоторые неточности. Нам нужны волонтеры, которые помогут просмотреть правки и классифицировать их как вандализм или конструктив. Мы надеемся в конечном итоге полностью заменить наш текущий набор данных случайной выборкой изменений, проверенных и классифицированных добровольцами. Более подробные инструкции по использованию интерфейса и самого интерфейса можно найти в интерфейсе просмотра набора данных.
Расширенную статистику по участникам, включая количество и точность рецензий редактирования, можно найти здесь .
Для тех, кто помогает и вносит свой вклад в интерфейс обзора, доступен ящик пользователя:
Используйте его с:
{{Пользователь:ClueBot NG/Просмотр ящика пользователя}}
Поскольку для работы ClueBot NG требуется набор данных, этот набор данных также можно использовать для получения довольно точной статистики его точности и работы. Различные части набора данных используются для обучения и испытаний, поэтому эта статистика не является предвзятой.
Точная статистика часто меняется и улучшается по мере обновления бота. В настоящее время:
В настоящее время набор данных испытаний, используемый для создания этой статистики, представляет собой случайную выборку изменений, каждое из которых проверено как минимум двумя людьми, поэтому статистика точна.
Примечание. Эти статистические данные рассчитываются перед фильтрами постобработки. Фильтры постобработки в первую очередь снижают уровень ложных срабатываний (т. е. фактическое количество ложных срабатываний будет меньше, чем указано здесь), но также могут немного снизить уровень обнаружения.
См. FAQ .
ClueBot NG использует совершенно другой метод классификации вандализма , чем все предыдущие антивандальные боты, включая оригинальный ClueBot. Предыдущие антивандальные боты использовали список простых эвристик и слов из черного списка, чтобы определить, является ли редактирование вандализмом. Если определенное количество эвристик совпадало, редактирование классифицировалось как вандализм. Этот метод приводит к довольно большому количеству ложных срабатываний, поскольку многие эвристики имеют законное применение в некоторых контекстах, и уровень выявления вандализма составляет всего от 5% до 10%, поскольку большая часть вандализма не может быть обнаружена с помощью этих простых эвристик.
ClueBot NG использует комбинацию различных методов обнаружения, в основе которых лежит машинное обучение. Они описаны ниже.
Вместо предопределенного списка правил, который генерирует человек, ClueBot NG автоматически узнает, что считается вандализмом, исследуя большой список изменений, которые предварительно классифицируются как конструктивные или вандализм. Его концепция того, что считается вандализмом, заимствована у людей-борцов с вандалами. Этот список изменений называется корпусом или набором данных. Точность бота во многом зависит от размера и качества набора данных. Если набор данных небольшой, содержит неточно классифицированные изменения или не содержит случайной выборки изменений, производительность бота серьезно снижается. Лучшее, что вы и другие пользователи Википедии можете сделать, чтобы помочь боту, — это улучшить набор данных. Если вы заинтересованы в помощи, ознакомьтесь с разделом «Интерфейс проверки набора данных».
В ClueBot NG используется несколько различных байесовских классификаторов. Самый простой из них работает в единицах слов. По сути, для каждого слова подсчитывается количество конструктивных правок, добавляющих это слово, и количество вандалистских правок, добавляющих это слово. Это используется для формирования вероятности вандализма для каждого добавленного слова в редактировании. Вероятности комбинируются таким образом, что используются не только слова, распространенные в вандализме, но и слова, редко встречающиеся в вандализме, которые могут снизить балл.
Это отличается от простого списка слов, занесенных в черный список, тем, что веса слов точно определены как оптимальные, а также существует большой «белый список» слов, также с оптимальными весами, что способствует.
В настоящее время существует также отдельный байесовский классификатор, который работает с фразами из двух слов. В будущем мы можем добавить еще больше байесовских классификаторов, которые будут работать с разными единицами слов или словами в разных контекстах.
Оценки только байесовских классификаторов не используются. Вместо этого они передаются в нейронную сеть как простые входные данные. Это позволяет нейронной сети уменьшить количество ложных срабатываний из-за простых слов, занесенных в черный список, и выявить вандализм, добавляющий неизвестные слова.
Основным компонентом алгоритма обнаружения вандализма ClueBot NG является нейронная сеть. Искусственная нейронная сеть — это метод машинного обучения, который может распознавать шаблоны в наборе входных данных, которые более сложны, чем просто определение весов. Входные данные для ИНС, используемой в ClueBot NG, состоят из ряда различных статистических данных, рассчитанных на основе редактирования, которые включают, среди прочего, результаты байесовских классификаторов. Перед вводом в нейронную сеть каждая статистика должна быть масштабирована до числа от нуля до единицы.
Выходные данные нейронной сети используются в качестве основного показателя вандализма для ClueBot NG. Как и в случае с другими методами машинного обучения, точность оценки зависит от размера и точности набора обучающих данных.
ANN генерирует оценку вандализма от 0 до 1, где 1 соответствует 100% уверенности в вандализме. Чтобы классифицировать некоторые правки как вандализм, а некоторые как конструктивные, к оценке необходимо применить пороговое значение. Баллы выше порога классифицируются как вандализм, а баллы ниже порога классифицируются как конструктивные.
Порог не выбирается человеком случайным образом, а рассчитывается так, чтобы соответствовать заданному уровню ложных срабатываний. При реальном обнаружении вандализма важно свести к минимуму ложные срабатывания. Человек выбирает уровень ложных срабатываний, который представляет собой процент конструктивных правок, ошибочно классифицированных как вандализм. Порог рассчитывается таким образом, чтобы уровень ложноположительных результатов был равен или ниже этого процента, при этом максимально увеличивая коэффициент вылова. Уровень ложных срабатываний задается человеком, и бот остается на этом уровне или ниже, улавливая при этом как можно больше вандализма. Уровень ложноположительных результатов не фиксирован, но регулируется.
Чтобы убедиться, что пороговое значение и статистика точны и не дают неточных статистических данных или более высокого уровня ложных срабатываний, чем ожидалось, часть набора данных, используемая для расчета пороговых значений, хранится отдельно от обучающего набора и не используется для обучения. Кроме того, для этого расчета используются только наиболее точные части набора данных (в настоящее время те, которые проверяются человеком из интерфейса проверки). Это гарантирует, что вся приведенная здесь статистика является точной и что количество ложных срабатываний не превысит заданный уровень.
После того, как ядро выполнит первичное определение вандализма, данные передаются в интерфейс Википедии. Интерфейс Википедии содержит простую логику, предназначенную для уменьшения количества ложных срабатываний. Хотя это также немного снижает уровень выявления случаев вандализма, это также снижает уровень ложных срабатываний, и некоторые из них предусмотрены политикой Википедии.
Первые два из них редко снижают уровень вылова, но оба предотвращают значительное количество ложных срабатываний. Примечание. Уровень ложных срабатываний (и уровень обнаружения) рассчитывается в ядре перед фильтрами постобработки. Это означает, что фактический уровень ложноположительных результатов будет меньше , чем заявленный ложноположительный результат, часто на значительный коэффициент.
Исходный код бота является общедоступным и его можно найти на github. Пожалуйста, обратитесь к разработчикам за доступом. Если вы хотите запустить бота на своей собственной вики, вам следует обсудить с разработчиками все факторы, необходимые для его правильной работы. Вы также должны знать, что он будет работать только в системе Linux/UNIX, а исходный код может быть довольно сложно скомпилировать (много зависимостей), если у вас нет опыта работы с системами Linux/UNIX.
ClueBot NG поддерживает поток своих данных на основе IRC, предназначенный в первую очередь для использования другими автоматизированными инструментами, расположенный по адресу #wikipedia-en-cbngfeed в сети Libera Chat . По сути, это копия канала Wikipedia RC, но с добавлением данных анализа ClueBot NG. Он включает в себя все, что делает канал Wikipedia RC, включая оценку ClueBot NG и информацию о том, была ли она отменена или нет. Формат edit line \003 # score # reason # Reverted or Not reverted
.
Обратите внимание, что изменения в ленте не обязательно могут быть в точном порядке, поскольку ClueBot NG обрабатывает их параллельно. Неотмененные изменения обычно обрабатываются менее чем за секунду. Обработка отмененных изменений иногда может занять до 10 секунд и более из-за задержки API при отмене.
ClueBot NG — это не человек, это автоматический робот, который пытается обнаружить вандализм и поддерживать чистоту Википедии. Ложное срабатывание — это когда редактирование, не являющееся вандализмом, ошибочно классифицируется как вандализм.
Бот не настроен против вас, вашего редактирования или вашей точки зрения (если только ваше редактирование не является вандализмом). Ложноположительные результаты редки, но случаются. Хорошо справляясь с ложными срабатываниями и не расстраиваясь, вы помогаете этому боту выявлять почти половину всего вандализма в Википедии и поддерживать вики в чистоте для всех нас.
Ложные срабатывания ClueBot NG (по сути) неизбежны. Чтобы эффективно выявлять большое количество вандализма, необходимо выявлять несколько конструктивных (или, по крайней мере, благих намерений) правок. Ложных срабатываний очень мало, но они случаются. Если одно из ваших изменений ошибочно идентифицировано как вандализм, просто повторите свое редактирование, удалите предупреждение со страницы обсуждения и, если хотите, сообщите о ложном срабатывании. ClueBot NG (пока) не разумен — это автоматизированный робот, и если он неправильно отменяет ваше редактирование, это не означает, что ваше редактирование плохое или даже некачественное — это просто случайная ошибка в классификации бота, как и электронное письмо. спам-фильтры иногда ошибочно классифицируют сообщения как спам.
Причина необходимости ложных срабатываний связана с тем, как работает бот. Он использует сложный внутренний алгоритм, называемый искусственной нейронной сетью, который генерирует вероятность того, что данное редактирование является вандализмом. Вероятность обычно довольно близка, но иногда может существенно отличаться от должной. Классифицируется ли редактирование как вандализм или нет, определяется путем применения порога к этой вероятности. Чем выше порог, тем меньше ложных срабатываний, но и меньше случаев вандализма. Порог выбирается исходя из предположения о фиксированном уровне ложных срабатываний (процент конструктивных изменений, ошибочно классифицированных как вандализм) и на основе этого оптимизируя количество выявленных случаев вандализма. Это означает, что всегда будут какие-то ложные срабатывания, и всегда будет примерно один и тот же процент конструктивных правок. Текущая настройка уровня ложных срабатываний указана в разделе «Статистика» выше.
Когда случаются ложные срабатывания, это может быть не некачественное редактирование, и для этого может даже не быть видимой причины. Если вы сообщите о ложном срабатывании, специалисты по обслуживанию бота проверят его, попытаются определить причину возникновения ошибки и, если возможно, повысят точность бота для будущих подобных изменений. Хотя это не предотвратит ложноположительные результаты, но может помочь уменьшить количество ложноположительных изменений хорошего качества. Кроме того, если точность бота повысится настолько, что уровень ложных срабатываний можно будет снизить без значительного снижения уровня обнаружения случаев вандализма, мы сможем уменьшить общее количество ложных срабатываний.
Если вы хотите значительно повысить точность работы бота, вы можете изменить ситуацию, внеся свой вклад в интерфейс проверки. Это должно помочь нам более точно определить порог, выявить больше случаев вандализма и, в конечном итоге, снизить количество ложных срабатываний.
Чтобы сообщить о ложном срабатывании или просмотреть полный список всех ложных срабатываний, см. здесь .
Для тех, кто помогает и способствует созданию ложного положительного интерфейса, вам доступен ящик пользователя:
Используйте его с:
{{Пользователь:ClueBot NG/Ящик пользователя для отчета}}
2NumForIce подарил вам транзисторы ! Транзисторы продвигают WikiLove (📖💞), и, надеюсь, этот сделал ваш день более эффективным. Эту еду боты предпочитают больше всего . 🤖 Распространяйте WikiLove, подарив транзисторы кому-нибудь другому, будь то тот, с кем вы в прошлом вели войны роботов , или хороший друг.
Особенность ClueBot NG в том, что каждый раз, когда я пытаюсь вручную отменить редактирование, ClueBot NG сразу меня побеждает. Вот насколько быстр CBNG; вандализм приходит и мгновенно возвращается. Вот несколько транзисторов, которые помогут вам работать.
Распространите информацию о транзисторах, добавив {{ subst:Transistors for you }} на чью-нибудь страницу обсуждения с дружеским сообщением!
~~ 2NumForIce ( говорить | редактировать ) 17:35, 12 ноября 2023 г. (UTC)
Мистер Ридинг Черепаха подарил вам моторное масло ! Моторное масло продвигает WikiLove (📖💞), и, надеюсь, оно сделало ваш день более эффективным. Боты предпочитают этот напиток . 🤖 Распространяйте WikiLove, давая кому-нибудь моторное масло, будь то тот, с кем вы в прошлом вели войны роботов , или хороший друг.
Распространите пользу моторного масла, добавив {{ subst:Моторное масло для вас }} на чью-нибудь страницу обсуждения с дружеским сообщением!
HelloHamburger подарил вам батарейки ! Батарейки продвигают WikiLove (📖💞), и, надеюсь, они сделают ваш день более насыщенным. Это источник энергии, который боты предпочитают больше всего . 🤖 Распространяйте WikiLove, подарив батарейки кому-нибудь другому, будь то тот, с кем вы в прошлом вели войны роботов , или хороший друг.
Расскажите о преимуществах аккумуляторов, добавив {{ subst:Batteries for you }} на чью-нибудь страницу обсуждения с дружеским сообщением!
Я не видел большую часть ваших работ, но, кажется, у вас все хорошо. Продолжай в том же духе, ты замечательный мальчик-бот!
HelloHamburger ( обсуждение ) 01:49, 3 марта 2022 г. (UTC)
TK421bsod подарил вам батарейки ! Батарейки продвигают WikiLove (📖💞), и, надеюсь, они сделают ваш день более насыщенным. Это источник энергии, который боты предпочитают больше всего . 🤖 Распространяйте WikiLove, подарив батарейки кому-нибудь другому, будь то тот, с кем вы в прошлом вели войны роботов , или хороший друг.
Расскажите о преимуществах аккумуляторов, добавив {{ subst:Batteries for you }} на чью-нибудь страницу обсуждения с дружеским сообщением!
TK421bsod ( обсуждение ) 20:04, 30 января 2020 г. (UTC)