Фильтр слов (иногда называемый просто « фильтром » или « цензором ») — это скрипт, обычно используемый на интернет-форумах или в чатах , который автоматически сканирует сообщения или комментарии пользователей по мере их отправки и автоматически изменяет или цензурирует определенные слова или фразы.
Самые простые фильтры слов ищут только определенные строки букв и удаляют или перезаписывают их независимо от контекста. Более продвинутые фильтры слов делают некоторые исключения для контекста (например, фильтруют "butt", но не "butter"), а самые продвинутые фильтры слов могут использовать регулярные выражения .
Фильтры слов могут выполнять множество функций.
Фильтр ругательств , также известный как фильтр ненормативной лексики или языковой фильтр, представляет собой программную подсистему, которая изменяет текст, удаляя слова, которые администратор или сообщество онлайн-форума считает оскорбительными . Фильтры ругательств распространены в специально запрограммированных чатах и онлайн-видеоиграх , в первую очередь в MMORPG . Это не следует путать с фильтрацией контента , которая обычно встраивается в программы просмотра интернета сторонними разработчиками для фильтрации или блокировки определенных веб-сайтов или типов веб-сайтов. Фильтры ругательств обычно создаются или внедряются разработчиками интернет-сервиса.
Чаще всего фильтры слов используются для цензурирования языка, который операторы форума или чата считают неуместным. Ругательства обычно частично заменяются, полностью заменяются или заменяются бессмысленными словами. [1] Это освобождает администраторов или модераторов от необходимости постоянно патрулировать доску, чтобы следить за таким языком. Это также может помочь доске объявлений избежать программного обеспечения для контроля контента, установленного на компьютерах или в сетях пользователей, поскольку такое программное обеспечение часто блокирует доступ к веб-страницам, содержащим вульгарный язык.
Отфильтрованные фразы могут быть навсегда заменены при сохранении (пример: phpBB 1.x), или исходная фраза может быть сохранена, но отображена как отцензурированный текст. В некоторых программах пользователи могут просматривать текст за фильтром слов, цитируя пост.
Фильтры ругательств обычно используют функции замены строк, встроенные в язык программирования, используемый для создания программы, чтобы заменить список неподходящих слов и фраз различными альтернативами. Альтернативы могут включать:
Некоторые фильтры ругательств выполняют простой поиск строки. Другие имеют меры, которые игнорируют пробелы , а третьи заходят так далеко, что игнорируют все небуквенно -цифровые символы и затем фильтруют простой текст. Это означает, что если слово "you" было установлено для фильтрации, "yo u" или "yo!u" также будут отфильтрованы.
Клише — определенные слова или фразы, постоянно используемые в сообщениях, также известные как «мемы» — часто развиваются на форумах. Некоторые пользователи считают, что эти клише добавляют веселья, но другие пользователи считают их утомительными, особенно когда их используют слишком часто. Администраторы могут настроить wordfilter, чтобы заменить раздражающее клише более смущающей фразой или вообще удалить его.
Интернет-форумы иногда подвергаются атакам вандалов , которые пытаются заполнить форум повторяющимися бессмысленными сообщениями, или спамеров , которые пытаются вставить ссылки на свои коммерческие веб-сайты. Фильтр слов сайта может быть настроен на удаление бессмысленного текста, используемого вандалами, или на удаление всех ссылок на определенные веб-сайты из сообщений.
Фильтры хромоты — это текстовые фильтры слов, используемые веб-сайтами на основе Slash (например, textboards и imageboards ), чтобы не допустить публикации нежелательных комментариев в ответ на истории. Вот некоторые из вещей, для фильтрации которых они предназначены:
Поскольку фильтры слов автоматизированы и ищут только определенные последовательности символов , пользователи, знающие о фильтрах, иногда пытаются обойти их, изменяя свои буквы ровно настолько, чтобы обойти фильтры. Пользователь, пытающийся обойти фильтр грубости, может заменить один из символов в оскорбительном слове на звездочку, тире или что-то подобное. Некоторые администраторы реагируют, пересматривая фильтры слов, чтобы отследить распространенные замены; другие могут сделать обход фильтра наказуемым правонарушением сам по себе. [2] Простым примером обхода фильтра слов может быть ввод символов между буквами или использование leet . Более продвинутые методы обхода фильтра слов включают использование изображений, использование скрытых тегов или кириллических символов (т. е. атака с подменой омографа ).
Другой метод — использовать мягкий дефис . Мягкий дефис используется только для указания того, где можно разделить слово при разрыве строк текста, и не отображается. При размещении его на полпути в слове слово разбивается и в некоторых случаях не распознается wordfilter.
Некоторые более продвинутые фильтры, такие как в онлайн-игре RuneScape , могут обнаружить обход. Однако недостатком чувствительных фильтров слов является то, что законные фразы также отфильтровываются.
Wordfilters кодируются в интернет-форумах или чатах и работают только с материалами, отправленными на форум или чат. Это отличает wordfilters от программного обеспечения для управления контентом , которое обычно устанавливается на ПК конечного пользователя или в компьютерной сети и может фильтровать весь интернет-контент, отправляемый на ПК или в сеть или с них. Поскольку wordfilters изменяют слова пользователей без их согласия, некоторые пользователи по-прежнему считают их цензурой , в то время как другие считают их приемлемой частью права оператора форума контролировать содержимое форума.
Распространенная особенность фильтров слов, которую пользователи часто считают либо комичной, либо раздражающей, заключается в том, что они часто затрагивают слова, которые не предназначены для фильтрации. Это типичная проблема, когда фильтруются короткие слова. Например, при цензурировании слова «ass» можно увидеть «Do you need istance for playing clical music?» вместо «Do you need assistance for playing classic music?» Несколько слов могут быть отфильтрованы, если проигнорированы пробелы, в результате чего «as suspected» станет «uspected». Запрет фразы, такой как «hard on», приведет к фильтрации безобидных утверждений, таких как «That was a hard one!» и «Sorry I was hard on you», в «That was ae!» и «Sorry I was you».
Некоторые слова, которые были случайно отфильтрованы, могут стать заменой нецензурных слов. Один из примеров этого можно найти на форуме Myst Mystcommunity. Там слово «manuscript» было случайно подвергнуто цензуре из-за содержания слова «anus», что привело к появлению «m****cript». Слово было принято в качестве замены ругательства и перенесено при перемещении форума, и многие замены, такие как «scripting», используются (хотя в основном старшими членами сообщества).
Названия мест могут быть отфильтрованы непреднамеренно из-за содержания частей ругательств. В ранние годы Интернета британское название места Penistone часто отфильтровывалось фильтрами спама и ругательств. [3]
Многие игры, такие как World of Warcraft , а в последнее время Habbo Hotel и RuneScape позволяют пользователям отключать фильтры. Другие игры, особенно бесплатные многопользовательские онлайн-игры , такие как Knight Online, не имеют такой возможности.
Другие игры, такие как Medal of Honor и Call of Duty (за исключением Call of Duty: World at War , Call of Duty: Black Ops , Call of Duty: Black Ops 2 и Call of Duty: Black Ops 3 ) не предоставляют пользователям возможности отключить нецензурную лексику, в то время как в Gears of War она есть.
Помимо игр, фильтры ненормативной лексики можно использовать для модерации пользовательского контента на форумах, в блогах, приложениях социальных сетей, на детских сайтах и в обзорах продуктов. Существует множество API фильтров ненормативной лексики, таких как WebPurify, которые помогают заменять ругательства другими символами (например, "@#$!"). Эти API фильтров ненормативной лексики работают с методом поиска и замены ненормативной лексики.
заменяет символы на похожие символы Unicode из других наборов символов (например, кириллицы)