Спамдексинг (также известный как поисковый спам , отравление поисковой системы , черная поисковая оптимизация , поисковый спам или веб-спам ) [1] — это преднамеренная манипуляция индексами поисковой системы . Она включает в себя ряд методов, таких как построение ссылок и повторение связанных и/или не связанных фраз, для манипулирования релевантностью или известностью ресурсов, индексированных способом, несовместимым с целью системы индексации. [2] [3]
Спамдексинг можно считать частью поисковой оптимизации , [4] хотя существует множество методов SEO, которые улучшают качество и внешний вид контента веб-сайтов и предоставляют контент, полезный для многих пользователей. [5]
Поисковые системы используют различные алгоритмы для определения рейтинга релевантности . Некоторые из них включают определение того, появляется ли поисковый термин в тексте или URL веб - страницы . Многие поисковые системы проверяют наличие спамдексинга и удаляют подозрительные страницы из своих индексов. Кроме того, операторы поисковых систем могут быстро заблокировать список результатов со всех веб-сайтов, которые используют спамдексинг, возможно, в ответ на жалобы пользователей на ложные совпадения. Рост спамдексинга в середине 1990-х годов сделал ведущие поисковые системы того времени менее полезными. Использование неэтичных методов для того, чтобы веб-сайты ранжировались выше в результатах поиска, чем они могли бы, обычно называют в отрасли SEO (поисковой оптимизации) «черным SEO». [6] Эти методы больше ориентированы на нарушение правил и рекомендаций по продвижению в поисковых системах. В дополнение к этому, нарушители рискуют, что их веб-сайты будут серьезно наказаны алгоритмами ранжирования результатов поиска Google Panda и Google Penguin . [7]
Распространенные методы спамдексинга можно разделить на два больших класса: контентный спам [5] ( термин спам ) и ссылочный спам [3] .
Самое раннее известное упоминание [2] термина «спамдексинг» принадлежит Эрику Конви в его статье «Порно прокрадывается в Интернет» в The Boston Herald от 22 мая 1996 года, где он сказал:
Проблема возникает, когда операторы сайтов загружают свои веб-страницы сотнями посторонних терминов, чтобы поисковые системы перечислили их среди законных адресов. Этот процесс называется «спамдексинг», комбинация спама — интернет-термина для отправки пользователям нежелательной информации — и « индексации ». [2]
В прошлом наполнение ключевыми словами использовалось для получения верхних позиций в поисковых системах и видимости для определенных фраз. Этот метод устарел и не добавляет никакой ценности рейтингам сегодня. В частности, Google больше не дает хороших рейтингов страницам, использующим эту технику.
Скрытие текста от посетителя осуществляется многими различными способами. Текст, окрашенный для слияния с фоном, позиционирование CSS z-index для размещения текста под изображением — и, следовательно, вне поля зрения посетителя — и абсолютное позиционирование CSS для размещения текста далеко от центра страницы — все это распространенные методы. К 2005 году многие методы невидимого текста были легко обнаружены основными поисковыми системами.
Теги "Noscript" — это еще один способ размещения скрытого контента на странице. Хотя они являются допустимым методом оптимизации для отображения альтернативного представления скриптового контента, ими можно злоупотреблять, поскольку поисковые системы могут индексировать контент, невидимый для большинства посетителей.
Иногда вставленный текст включает в себя слова, которые часто ищут (например, «секс»), даже если эти термины имеют мало отношения к содержанию страницы, чтобы привлечь трафик на страницы с рекламой.
В прошлом наполнение ключевыми словами считалось либо тактикой белой шляпы , либо тактикой черной шляпы , в зависимости от контекста техники и мнения человека, оценивающего ее. Хотя значительная часть наполнения ключевыми словами использовалась для помощи в спамдексинге, что малополезно для пользователя, наполнение ключевыми словами в определенных обстоятельствах не было предназначено для искажения результатов обманным образом. Несет ли термин уничижительный или нейтральный оттенок , зависит от того, используется ли практика для загрязнения результатов страницами с низкой релевантностью или для направления трафика на страницу с релевантностью, которая в противном случае была бы обесценена из-за неспособности поисковой системы интерпретировать и понимать связанные идеи. Теперь это не так. Поисковые системы теперь используют тематические, связанные методы ключевых слов для интерпретации намерения контента на странице.
Эти методы предполагают изменение логического представления, которое поисковая система имеет над содержимым страницы. Все они нацелены на варианты модели векторного пространства для поиска информации в текстовых коллекциях.
Наполнение ключевыми словами — это метод поисковой оптимизации (SEO), при котором ключевые слова загружаются в метатеги веб-страницы , видимый контент или текст анкора обратной ссылки в попытке получить несправедливое преимущество в рейтинге поисковых систем . Наполнение ключевыми словами может привести к временному или постоянному запрету или штрафу веб-сайта в основных поисковых системах. [8] Повторение слов в метатегах может объяснить, почему многие поисковые системы больше не используют эти теги. В настоящее время поисковые системы больше фокусируются на уникальном, всеобъемлющем, релевантном и полезном контенте, что в целом повышает качество, что делает наполнение ключевыми словами бесполезным, но оно все еще практикуется многими веб-мастерами. [ требуется цитата ]
Многие крупные поисковые системы внедрили алгоритмы, которые распознают перегрузку ключевыми словами и уменьшают или устраняют любое несправедливое преимущество в поиске, которое могло быть получено с помощью этой тактики, и зачастую они также штрафуют, понижают в рейтинге или удаляют из своих индексов веб-сайты, которые применяют перегрузку ключевыми словами.
Изменения и алгоритмы, специально предназначенные для наказания или блокировки сайтов, использующих наполнение ключевыми словами, включают обновление Google Florida (ноябрь 2003 г.), Google Panda (февраль 2011 г.) [9] , Google Hummingbird (август 2013 г.) [10] и обновление Bing от сентября 2014 г. [11] .
Заголовки на новостных сайтах в Интернете все чаще заполняются только удобными для поиска ключевыми словами, которые идентифицируют историю. Традиционные репортеры и редакторы не одобряют эту практику, но она эффективна для оптимизации новостных историй для поиска. [12]
Несвязанный скрытый текст маскируется, делая его того же цвета, что и фон, используя крошечный размер шрифта или скрывая его в HTML- коде, например, разделах «без фрейма», атрибутах alt , DIV нулевого размера и разделах «без скрипта». Люди, вручную просматривающие помеченные красным цветом веб-сайты для поисковой компании, могут временно или навсегда заблокировать весь веб-сайт из-за наличия невидимого текста на некоторых его страницах. Однако скрытый текст не всегда является спамдексингом: его также можно использовать для улучшения доступности . [13]
Это включает в себя повторение ключевых слов в метатегах и использование мета-ключевых слов, которые не связаны с содержимым сайта. Эта тактика оказалась неэффективной. Google заявил, что не использует метатег keywords в своем рейтинге онлайн-поиска в сентябре 2009 года. [14]
«Шлюзовые» или дорвейные страницы — это низкокачественные веб-страницы, созданные с очень небольшим содержанием, которые вместо этого набиты очень похожими ключевыми словами и фразами. Они предназначены для высокого ранжирования в результатах поиска, но не служат никакой цели для посетителей, ищущих информацию. Дорвейная страница, как правило, имеет на странице «нажмите здесь, чтобы войти»; для этой цели также может использоваться автоматическая переадресация. В 2006 году Google вытеснил производителя автомобилей BMW за использование «дорвейных страниц» на немецком сайте компании BMW.de. [15]
Сайты-скрейперы создаются с использованием различных программ, предназначенных для «скрейпинга» страниц результатов поисковой системы или других источников контента и создания «контента» для веб-сайта. [ требуется цитата ] Конкретное представление контента на этих сайтах уникально, но представляет собой просто объединение контента, взятого из других источников, часто без разрешения. Такие веб-сайты, как правило, полны рекламы (например, рекламы с оплатой за клик ) или перенаправляют пользователя на другие сайты. Сайты-скрейперы даже могут превзойти оригинальные веб-сайты по их собственной информации и названиям организаций.
Спиннинг статей подразумевает переписывание существующих статей, а не простое копирование контента с других сайтов, чтобы избежать штрафов, налагаемых поисковыми системами за дублирование контента . Этот процесс выполняется нанятыми авторами [ требуется ссылка ] или автоматизирован с использованием базы данных тезауруса или искусственной нейронной сети .
Подобно спиннингу статей , некоторые сайты используют машинный перевод для отображения своего контента на нескольких языках без редактирования человеком, что приводит к непонятным текстам, которые, тем не менее, продолжают индексироваться поисковыми системами, тем самым привлекая трафик.
Ссылочный спам определяется как ссылки между страницами, которые присутствуют по причинам, не связанным с заслугами. [16] Ссылочный спам использует преимущества алгоритмов ранжирования на основе ссылок, которые дают веб-сайтам более высокие рейтинги, чем больше других высокоранжированных веб-сайтов ссылаются на него. Эти методы также направлены на влияние на другие методы ранжирования на основе ссылок, такие как алгоритм HITS . [ необходима цитата ]
Фермы ссылок — это тесно связанные сети веб-сайтов, которые ссылаются друг на друга с единственной целью — эксплуатировать алгоритмы ранжирования поисковых систем. Их также в шутку называют обществами взаимного восхищения . [17] Использование ферм ссылок значительно сократилось с запуском первого обновления Panda от Google в феврале 2011 года, которое внесло значительные улучшения в алгоритм обнаружения спама.
Блоговые сети (PBN) — это группа авторитетных веб-сайтов, используемых в качестве источника контекстных ссылок, указывающих на основной веб-сайт владельца для достижения более высокого рейтинга в поисковой системе. Владельцы веб-сайтов PBN используют просроченные домены или аукционные домены , которые имеют обратные ссылки с высокоавторитетных веб-сайтов. Google несколько раз преследовал и наказывал пользователей PBN с помощью нескольких масштабных кампаний по деиндексации с 2014 года. [18]
Размещение гиперссылок там, где посетители их не увидят, используется для повышения популярности ссылок . Выделенный текст ссылки может помочь повысить рейтинг веб-страницы по соответствию этой фразе.
Атака Сибиллы — это подделка нескольких личностей со злым умыслом, названная в честь известной пациентки с диссоциативным расстройством личности и книги о ней, которая носит ее имя — « Сибилла ». [19] [20] Спамер может создать несколько веб-сайтов с разными доменными именами , которые все ссылаются друг на друга, например, поддельные блоги (известные как спам-блоги ).
Спам-блоги — это блоги, созданные исключительно для коммерческой рекламы и передачи полномочий ссылок на целевые сайты. Часто эти «сплоги» разработаны в обманчивой манере, которая создаст эффект законного веб-сайта, но при ближайшем рассмотрении они часто будут написаны с использованием спиннингового программного обеспечения или будут очень плохо написаны с едва читаемым содержанием. По своей природе они похожи на фермы ссылок. [21] [22]
Гостевой блог-спам — это процесс размещения гостевых блогов на веб-сайтах с единственной целью — получить ссылку на другой веб-сайт или веб-сайты. К сожалению, их часто путают с законными формами гостевого блоггинга с другими мотивами, нежели размещение ссылок. Этот метод стал известен благодаря Мэтту Каттсу , который публично объявил «войну» этой форме спама ссылками. [23]
Некоторые спамеры ссылок используют программное обеспечение для сканирования просроченных доменов или отслеживают записи DNS для доменов, срок действия которых скоро истекает, а затем покупают их, когда они истекают, и заменяют страницы ссылками на свои страницы. Однако возможно, но не подтверждено, что Google сбрасывает данные ссылок на просроченных доменах. [ необходима цитата ] Чтобы сохранить все предыдущие данные рейтинга Google для домена, покупателю желательно захватить домен до того, как он будет «выброшен».
Некоторые из этих методов могут применяться для создания « Google-бомбы» , то есть для сотрудничества с другими пользователями с целью повышения рейтинга определенной страницы по определенному запросу.
Веб-сайты, которые могут редактироваться пользователями, могут использоваться спам-хакерами для вставки ссылок на спам-сайты, если не будут приняты соответствующие меры по борьбе со спамом.
Автоматизированные спам-боты могут быстро сделать часть сайта, доступную для редактирования пользователем, непригодной для использования. Программисты разработали множество автоматизированных методов предотвращения спама , чтобы заблокировать или, по крайней мере, замедлить спам-ботов.
Спам в блогах — это размещение или запрашивание ссылок в случайном порядке на других сайтах, размещение желаемого ключевого слова в гиперссылочном тексте входящей ссылки. Гостевые книги, форумы, блоги и любые сайты, которые принимают комментарии посетителей, являются особыми целями и часто становятся жертвами скрытого спама, когда автоматизированное программное обеспечение создает бессмысленные посты со ссылками, которые обычно нерелевантны и нежелательны.
Спам в комментариях — это форма спама в ссылках, которая возникла на веб-страницах, которые позволяют динамически редактировать пользователя, таких как вики , блоги и гостевые книги . Это может быть проблематично, поскольку могут быть написаны агенты , которые автоматически случайным образом выбирают редактируемую пользователем веб-страницу, например статью в Википедии, и добавляют спам-ссылки. [24]
Вики-спам — это когда спамер использует открытую возможность редактирования вики-систем для размещения ссылок с вики-сайта на спам-сайт.
Спам-реферер происходит, когда спамер или посредник получает доступ к веб-странице ( реферер ), следуя ссылке с другой веб-страницы ( реферер ), так что реферер получает адрес реферера от интернет-браузера человека. На некоторых веб-сайтах есть журнал рефереров, который показывает, какие страницы ссылаются на этот сайт. Если роботу достаточно часто заходить на множество сайтов с сообщением или конкретным адресом, указанным в качестве реферера, то это сообщение или интернет-адрес затем появляется в журнале рефереров тех сайтов, которые имеют журналы рефереров. Поскольку некоторые поисковые системы основывают важность сайтов на количестве различных сайтов, ссылающихся на них, спам в журнале рефереров может повысить рейтинг сайтов спамера в поисковых системах. Кроме того, администраторы сайтов, которые замечают записи журнала рефереров в своих журналах, могут перейти по ссылке обратно на страницу реферера спамера.
Из-за большого количества спама, размещаемого на редактируемых пользователем веб-страницах, Google предложил тег "nofollow", который может быть встроен в ссылки. Поисковая система на основе ссылок, такая как система PageRank Google , не будет использовать ссылку для повышения рейтинга связанного веб-сайта, если ссылка содержит тег nofollow. Это гарантирует, что спам-ссылки на редактируемые пользователем веб-сайты не повысят рейтинг сайтов в поисковых системах. Nofollow используется несколькими крупными веб-сайтами, включая Wordpress , Blogger и Wikipedia . [ необходима цитата ]
Зеркальный сайт — это хостинг нескольких веб-сайтов с концептуально схожим содержанием, но использующих разные URL-адреса . Некоторые поисковые системы дают более высокий рейтинг результатам, в которых искомое ключевое слово содержится в URL-адресе.
Перенаправление URL-адреса — это перенаправление пользователя на другую страницу без его или ее вмешательства, например , с помощью тегов META refresh , Flash , JavaScript , Java или перенаправлений на стороне сервера . Однако 301 Redirect или постоянный редирект не считается вредоносным поведением.
Маскировка относится к любому из нескольких способов предоставления пауку поисковой системы страницы , которая отличается от той, которую видят пользователи-люди. Это может быть попыткой ввести поисковые системы в заблуждение относительно контента на определенном веб-сайте. Маскировка, однако, может также использоваться для этического повышения доступности сайта для пользователей с ограниченными возможностями или предоставления пользователям-людям контента, который поисковые системы не могут обработать или проанализировать. Она также используется для доставки контента на основе местоположения пользователя; сама Google использует доставку по IP , форму маскировки, для доставки результатов. Другая форма маскировки — это подмена кода , т. е . оптимизация страницы для получения высшего рейтинга, а затем замена другой страницы на ее место после достижения высшего рейтинга. Google называет этот тип перенаправлений скрытыми перенаправлениями . [25]
Страницы, помеченные спамом, иногда удаляются поисковой системой из результатов поиска.
Пользователи могут использовать операторы поиска для фильтрации. Для Google ключевое слово, которому предшествует "-" (минус), исключит из результатов поиска сайты, содержащие ключевое слово на своих страницах или в URL страниц. Например, поиск "-<unwanted site>" исключит сайты, содержащие слово "<unwanted site>" на своих страницах, и страницы, URL которых содержит "<unwanted site>".
Пользователи также могли использовать расширение Google Chrome «Personal Blocklist (by Google)», запущенное Google в 2011 году в качестве части мер противодействия фармингу контента . [26] С помощью расширения пользователи могли заблокировать определенную страницу или набор страниц, чтобы они не появлялись в результатах поиска. По состоянию на 2021 год оригинальное расширение, по-видимому, будет удалено, хотя могут использоваться расширения с похожими функциями.
Возможные решения для преодоления отравления перенаправления поиска, перенаправления на нелегальные интернет-аптеки, включают уведомление операторов уязвимых законных доменов. Кроме того, ручная оценка SERP, ранее опубликованные алгоритмы на основе ссылок и контента, а также индивидуальные автоматические механизмы обнаружения и классификации могут использоваться в качестве ориентиров для эффективного выявления кампаний фармацевтического мошенничества. [27]