stringtranslate.com

Спамдексинг

Спамдексинг (также известный как поисковый спам , отравление поисковой системы , черная поисковая оптимизация , поисковый спам или веб-спам ) [1] — это преднамеренная манипуляция индексами поисковой системы . Она включает в себя ряд методов, таких как построение ссылок и повторение не связанных между собой фраз, для манипулирования релевантностью или известностью ресурсов, индексированных способом, несовместимым с целью системы индексации. [2] [3]

Спамдексинг можно считать частью поисковой оптимизации , [4] хотя существует множество методов SEO, которые улучшают качество и внешний вид контента веб-сайтов и предоставляют контент, полезный для многих пользователей. [5]

Обзор

Поисковые системы используют различные алгоритмы для определения релевантности рейтинга . Некоторые из них включают определение того, появляется ли поисковый термин в тексте или URL веб - страницы . Многие поисковые системы проверяют наличие спамдексинга и удаляют подозрительные страницы из своих индексов. Кроме того, операторы поисковых систем могут быстро заблокировать список результатов со всех веб-сайтов, которые используют спамдексинг, возможно, в ответ на жалобы пользователей на ложные совпадения. Рост спамдексинга в середине 1990-х годов сделал ведущие поисковые системы того времени менее полезными. Использование неэтичных методов для того, чтобы веб-сайты ранжировались выше в результатах поиска, чем они могли бы, обычно называют в отрасли SEO (поисковой оптимизации) «черным SEO». [6] Эти методы больше ориентированы на нарушение правил и рекомендаций по продвижению в поисковых системах. В дополнение к этому, нарушители рискуют, что их веб-сайты будут серьезно наказаны алгоритмами ранжирования результатов поиска Google Panda и Google Penguin . [7]

Распространенные методы спамдексинга можно разделить на два больших класса: контентный спам [5] ( термин спам ) и ссылочный спам [3] .

История

Самое раннее известное упоминание [2] термина «спамдексинг» принадлежит Эрику Конви в его статье «Порно прокрадывается в Интернет» в The Boston Herald от 22 мая 1996 года, где он сказал:

Проблема возникает, когда операторы сайтов загружают свои веб-страницы сотнями посторонних терминов, чтобы поисковые системы перечислили их среди законных адресов. Этот процесс называется «спамдексинг», комбинация спама — интернет-термина для отправки пользователям нежелательной информации — и « индексации ». [2]

В прошлом наполнение ключевыми словами использовалось для получения верхних позиций в поисковых системах и видимости для определенных фраз. Этот метод устарел и не добавляет никакой ценности рейтингам сегодня. В частности, Google больше не дает хороших рейтингов страницам, использующим эту технику.

Скрытие текста от посетителя осуществляется многими различными способами. Текст, окрашенный для слияния с фоном, позиционирование CSS z-index для размещения текста под изображением — и, следовательно, вне поля зрения посетителя — и абсолютное позиционирование CSS для размещения текста далеко от центра страницы — все это распространенные методы. К 2005 году многие методы невидимого текста были легко обнаружены основными поисковыми системами.

Теги "Noscript" — это еще один способ размещения скрытого контента на странице. Хотя они являются допустимым методом оптимизации для отображения альтернативного представления скриптового контента, ими можно злоупотреблять, поскольку поисковые системы могут индексировать контент, невидимый для большинства посетителей.

Иногда вставленный текст включает в себя слова, которые часто ищут (например, «секс»), даже если эти термины имеют мало отношения к содержанию страницы, чтобы привлечь трафик на страницы с рекламой.

В прошлом наполнение ключевыми словами считалось либо тактикой белой шляпы , либо тактикой черной шляпы , в зависимости от контекста техники и мнения человека, оценивающего ее. Хотя значительная часть наполнения ключевыми словами использовалась для помощи в спамдексинге, что малополезно для пользователя, наполнение ключевыми словами в определенных обстоятельствах не было предназначено для искажения результатов обманным образом. Несет ли термин уничижительный или нейтральный оттенок , зависит от того, используется ли эта практика для загрязнения результатов страницами с низкой релевантностью или для направления трафика на страницу с релевантностью, которая в противном случае была бы обесценена из-за неспособности поисковой системы интерпретировать и понимать связанные идеи. Теперь это не так. Поисковые системы теперь используют тематические, связанные методы ключевых слов для интерпретации намерения контента на странице.

Контент-спам

Эти методы предполагают изменение логического представления, которое поисковая система имеет над содержимым страницы. Все они нацелены на варианты модели векторного пространства для поиска информации в текстовых коллекциях.

Наполнение ключевыми словами

Наполнение ключевыми словами — это метод поисковой оптимизации (SEO), при котором ключевые слова загружаются в метатеги веб-страницы , видимый контент или текст анкора обратной ссылки в попытке получить несправедливое преимущество в рейтинге в поисковых системах . Наполнение ключевыми словами может привести к временному или постоянному запрету или штрафу веб-сайта в основных поисковых системах. [8] Повторение слов в метатегах может объяснить, почему многие поисковые системы больше не используют эти теги. В настоящее время поисковые системы больше фокусируются на уникальном, всеобъемлющем, релевантном и полезном контенте, что в целом повышает качество, что делает наполнение ключевыми словами бесполезным, но оно все еще практикуется многими веб-мастерами. [ требуется цитата ]

Многие крупные поисковые системы внедрили алгоритмы, которые распознают перегрузку ключевыми словами и уменьшают или устраняют любое несправедливое преимущество в поиске, которое могло быть получено с помощью этой тактики, и зачастую они также штрафуют, понижают в рейтинге или удаляют из своих индексов веб-сайты, которые применяют перегрузку ключевыми словами.

Изменения и алгоритмы, специально предназначенные для наказания или блокировки сайтов, использующих наполнение ключевыми словами, включают обновление Google Florida (ноябрь 2003 г.), Google Panda (февраль 2011 г.) [9] , Google Hummingbird (август 2013 г.) [10] и обновление Bing от сентября 2014 г. [11] .

Заголовки на новостных сайтах в Интернете все чаще заполняются только удобными для поиска ключевыми словами, которые идентифицируют историю. Традиционные репортеры и редакторы не одобряют эту практику, но она эффективна для оптимизации новостных историй для поиска. [12]

Скрытый или невидимый текст

Несвязанный скрытый текст маскируется, делая его того же цвета, что и фон, используя крошечный размер шрифта или скрывая его в HTML- коде, например, разделах «без фрейма», атрибутах alt , DIV нулевого размера и разделах «без скрипта». Люди, вручную просматривающие помеченные красным цветом веб-сайты для поисковой компании, могут временно или навсегда заблокировать весь веб-сайт из-за наличия невидимого текста на некоторых его страницах. Однако скрытый текст не всегда является спамдексингом: его также можно использовать для улучшения доступности . [13]

Наполнение метатегами

Это включает в себя повторение ключевых слов в метатегах и использование мета-ключевых слов, которые не связаны с содержимым сайта. Эта тактика оказалась неэффективной. Google заявил, что не использует метатег keywords в своем рейтинге онлайн-поиска в сентябре 2009 года. [14]

Страницы дорвея

«Шлюзовые» или дорвейные страницы — это низкокачественные веб-страницы, созданные с очень небольшим количеством контента, которые вместо этого набиты очень похожими ключевыми словами и фразами. Они предназначены для высокого ранжирования в результатах поиска, но не служат никакой цели для посетителей, ищущих информацию. Дорвейная страница, как правило, имеет на странице «нажмите здесь, чтобы войти»; для этой цели также может использоваться автоматическая переадресация. В 2006 году Google вытеснил производителя автомобилей BMW за использование «дорвейных страниц» на немецком сайте компании BMW.de. [15]

Сайты-скребки

Сайты-скрейперы создаются с использованием различных программ, предназначенных для «скрейпинга» страниц результатов поисковой системы или других источников контента и создания «контента» для веб-сайта. [ требуется цитата ] Конкретное представление контента на этих сайтах уникально, но представляет собой просто объединение контента, взятого из других источников, часто без разрешения. Такие веб-сайты, как правило, полны рекламы (например, рекламы с оплатой за клик ) или перенаправляют пользователя на другие сайты. Сайты-скрейперы даже могут превзойти оригинальные веб-сайты по их собственной информации и названиям организаций.

Статья спиннинг

Спиннинг статей подразумевает переписывание существующих статей, а не простое копирование контента с других сайтов, чтобы избежать штрафов, налагаемых поисковыми системами за дублирование контента . Этот процесс выполняется нанятыми авторами [ требуется ссылка ] или автоматизирован с использованием базы данных тезауруса или искусственной нейронной сети .

Машинный перевод

Подобно спиннингу статей , некоторые сайты используют машинный перевод для отображения своего контента на нескольких языках без редактирования человеком, что приводит к непонятным текстам, которые, тем не менее, продолжают индексироваться поисковыми системами, тем самым привлекая трафик.

Ссылочный спам

Ссылочный спам определяется как ссылки между страницами, которые присутствуют по причинам, не связанным с заслугами. [16] Ссылочный спам использует преимущества алгоритмов ранжирования на основе ссылок, которые дают веб-сайтам более высокие рейтинги, чем больше других высокоранжированных веб-сайтов ссылаются на него. Эти методы также направлены на влияние на другие методы ранжирования на основе ссылок, такие как алгоритм HITS . [ необходима цитата ]

Фермы ссылок

Фермы ссылок — это тесно связанные сети веб-сайтов, которые ссылаются друг на друга с единственной целью — эксплуатировать алгоритмы ранжирования поисковых систем. Их также в шутку называют обществами взаимного восхищения . [17] Использование ферм ссылок значительно сократилось с запуском первого обновления Panda от Google в феврале 2011 года, которое внесло значительные улучшения в алгоритм обнаружения спама.

Частные сети блогов

Блоговые сети (PBN) — это группа авторитетных веб-сайтов, используемых в качестве источника контекстных ссылок, указывающих на основной веб-сайт владельца для достижения более высокого рейтинга в поисковой системе. Владельцы веб-сайтов PBN используют просроченные домены или аукционные домены , которые имеют обратные ссылки с высокоавторитетных веб-сайтов. Google несколько раз преследовал и наказывал пользователей PBN с помощью нескольких масштабных кампаний по деиндексации с 2014 года. [18]

Скрытые ссылки

Размещение гиперссылок там, где посетители их не увидят, используется для повышения популярности ссылок . Выделенный текст ссылки может помочь повысить рейтинг веб-страницы по соответствию этой фразе.

атака Сивиллы

Атака Сибиллы — это подделка нескольких личностей со злым умыслом, названная в честь известной пациентки с диссоциативным расстройством личности и книги о ней, которая носит ее имя — « Сибилла ». [19] [20] Спамер может создать несколько веб-сайтов с разными доменными именами , которые все ссылаются друг на друга, например, поддельные блоги (известные как спам-блоги ).

Спам-блоги

Спам-блоги — это блоги, созданные исключительно для коммерческой рекламы и передачи полномочий ссылок на целевые сайты. Часто эти «сплоги» разработаны в обманчивой манере, которая создает эффект законного веб-сайта, но при ближайшем рассмотрении они часто написаны с использованием спиннингового программного обеспечения или очень плохо написаны с едва читаемым содержанием. По своей природе они похожи на фермы ссылок. [21] [22]

Спам в гостевом блоге

Гостевой блог-спам — это процесс размещения гостевых блогов на веб-сайтах с единственной целью — получить ссылку на другой веб-сайт или веб-сайты. К сожалению, их часто путают с законными формами гостевого блоггинга с другими мотивами, нежели размещение ссылок. Этот метод стал известен благодаря Мэтту Каттсу , который публично объявил «войну» этой форме спама ссылками. [23]

Покупка просроченных доменов

Некоторые спамеры ссылок используют программное обеспечение для сканирования доменов с истекшим сроком действия или отслеживают записи DNS для доменов, срок действия которых скоро истекает, а затем покупают их, когда они истекают, и заменяют страницы ссылками на свои страницы. Однако возможно, но не подтверждено, что Google сбрасывает данные ссылок на доменах с истекшим сроком действия. [ необходима цитата ] Чтобы сохранить все предыдущие данные рейтинга Google для домена, покупателю желательно захватить домен до того, как он будет «выброшен».

Некоторые из этих методов могут применяться для создания « Google-бомбы» , то есть для сотрудничества с другими пользователями с целью повышения рейтинга определенной страницы по определенному запросу.

Использование страниц, доступных для записи всем пользователям

Веб-сайты, которые могут редактироваться пользователями, могут использоваться спам-хакерами для вставки ссылок на спам-сайты, если не будут приняты соответствующие меры по борьбе со спамом.

Автоматизированные спам-боты могут быстро сделать часть сайта, доступную для редактирования пользователем, непригодной для использования. Программисты разработали множество автоматизированных методов предотвращения спама , чтобы заблокировать или, по крайней мере, замедлить спам-ботов.

Спам в блогах

Спам в блогах — это размещение или запрашивание ссылок в случайном порядке на других сайтах, размещение желаемого ключевого слова в гиперссылочном тексте входящей ссылки. Гостевые книги, форумы, блоги и любые сайты, которые принимают комментарии посетителей, являются особыми целями и часто становятся жертвами скрытого спама, когда автоматизированное программное обеспечение создает бессмысленные посты со ссылками, которые обычно нерелевантны и нежелательны.

Спам в комментариях

Спам в комментариях — это форма спама в ссылках, которая возникла на веб-страницах, которые позволяют динамически редактировать пользователя, таких как вики , блоги и гостевые книги . Это может быть проблематично, поскольку могут быть написаны агенты , которые автоматически случайным образом выбирают редактируемую пользователем веб-страницу, например статью в Википедии, и добавляют спам-ссылки. [24]

Вики-спам

Вики-спам — это когда спамер использует открытую возможность редактирования вики-систем для размещения ссылок с вики-сайта на спам-сайт.

Спам-журнал реферера

Спам-реферер происходит, когда спамер или посредник получает доступ к веб-странице ( реферер ), следуя ссылке с другой веб-страницы ( реферер ), так что реферер получает адрес реферера от интернет-браузера человека. На некоторых веб-сайтах есть журнал рефереров, который показывает, какие страницы ссылаются на этот сайт. Если роботу достаточно часто заходить на множество сайтов случайным образом, с сообщением или определенным адресом, указанным в качестве реферера, это сообщение или интернет-адрес затем появляется в журнале рефереров тех сайтов, которые имеют журналы рефереров. Поскольку некоторые поисковые системы основывают важность сайтов на количестве различных сайтов, ссылающихся на них, спам в журнале рефереров может повысить рейтинг сайтов спамера в поисковых системах. Кроме того, администраторы сайтов, которые замечают записи журнала рефереров в своих журналах, могут перейти по ссылке обратно на страницу реферера спамера.

Контрмеры

Из-за большого количества спама, размещаемого на редактируемых пользователем веб-страницах, Google предложил тег "nofollow", который может быть встроен в ссылки. Поисковая система на основе ссылок, такая как система PageRank Google , не будет использовать ссылку для повышения рейтинга связанного веб-сайта, если ссылка содержит тег nofollow. Это гарантирует, что спам-ссылки на редактируемые пользователем веб-сайты не повысят рейтинг сайтов в поисковых системах. Nofollow используется несколькими крупными веб-сайтами, включая Wordpress , Blogger и Wikipedia . [ необходима цитата ]

Другие типы

Зеркальные сайты

Зеркальный сайт — это хостинг нескольких веб-сайтов с концептуально схожим содержанием, но использующих разные URL-адреса . Некоторые поисковые системы дают более высокий рейтинг результатам, в которых искомое ключевое слово содержится в URL-адресе.

URL-перенаправление

Перенаправление URL-адреса — это перенаправление пользователя на другую страницу без его или ее вмешательства, например , с помощью тегов META refresh , Flash , JavaScript , Java или перенаправлений на стороне сервера . Однако 301 Redirect или постоянный редирект не считается вредоносным поведением.

Маскировка

Маскировка относится к любому из нескольких способов предоставления страницы поисковому роботу , которая отличается от той, которую видят пользователи-люди. Это может быть попыткой ввести поисковые системы в заблуждение относительно контента на определенном веб-сайте. Маскировка, однако, может также использоваться для этического повышения доступности сайта для пользователей с ограниченными возможностями или предоставления пользователям-людям контента, который поисковые системы не могут обработать или проанализировать. Она также используется для доставки контента на основе местоположения пользователя; сама Google использует доставку по IP , форму маскировки, для доставки результатов. Другая форма маскировки — это подмена кода , т. е . оптимизация страницы для получения высшего рейтинга, а затем замена другой страницы на ее место после достижения высшего рейтинга. Google называет этот тип перенаправлений скрытыми перенаправлениями . [25]

Контрмеры

Пропуск страницы поисковой системой

Страницы, помеченные спамом, иногда удаляются поисковой системой из результатов поиска.

Пропуск страницы пользователем

Пользователи могут использовать операторы поиска для фильтрации. Для Google ключевое слово, которому предшествует "-" (минус), исключит из результатов поиска сайты, содержащие ключевое слово на своих страницах или в URL страниц. Например, поиск "-<unwanted site>" исключит сайты, содержащие слово "<unwanted site>" на своих страницах, и страницы, URL которых содержит "<unwanted site>".

Пользователи также могли использовать расширение Google Chrome «Personal Blocklist (by Google)», запущенное Google в 2011 году в качестве части мер противодействия контент-фармингу . [26] С помощью расширения пользователи могли заблокировать определенную страницу или набор страниц, чтобы они не появлялись в результатах поиска. По состоянию на 2021 год оригинальное расширение, по-видимому, будет удалено, хотя могут использоваться расширения с похожими функциями.

Возможные решения для преодоления отравления перенаправления поиска, перенаправления на нелегальные интернет-аптеки, включают уведомление операторов уязвимых законных доменов. Кроме того, ручная оценка SERP, ранее опубликованные алгоритмы на основе ссылок и контента, а также индивидуальные автоматические механизмы обнаружения и классификации могут использоваться в качестве ориентиров для эффективного выявления кампаний фармацевтического мошенничества. [27]

Смотрите также

Ссылки

  1. SearchEngineLand, Видеообъяснение Дэнни Салливана о спаме в поисковых системах, октябрь 2008 г. Архивировано 17 декабря 2008 г. в Wayback Machine «Google Search Central». 23 февраля 2023 г.. Получено 16.05.2023.
  2. ^ abc "Word Spy - spamdexing" (определение), март 2003 г., веб-страница:WordSpy-spamdexing. Архивировано 18 июля 2014 г. на Wayback Machine .
  3. ^ ab Gyöngyi, Zoltán; Garcia-Molina, Hector (2005), "Таксономия веб-спама" (PDF) , Труды Первого международного семинара по состязательному поиску информации в Интернете (AIRWeb), 2005 в 14-й Международной конференции Всемирной паутины (WWW 2005) 10 (вт) - 14 (сб) мая 2005, Nippon Convention Center (Makuhari Messe), Тиба, Япония. , Нью-Йорк, штат Нью-Йорк: ACM Press, ISBN 1-59593-046-9, заархивировано (PDF) из оригинала 2020-02-15 , извлечено 2007-10-05
  4. ^ Zuze, Herbert; Weideman, Melius (2013-04-12). «Наполнение ключевыми словами и три больших поисковых системы». Online Information Review . 37 (2): 268–286. doi :10.1108/OIR-11-2011-0193. ISSN  1468-4527.
  5. ^ ab Ntoulas, Alexandros; Manasse, Mark; Najork, Marc; Fetterly, Dennis (2006), «Обнаружение спамовых веб-страниц с помощью анализа контента», 15-я Международная конференция World Wide Web (WWW 2006) 23–26 мая 2006 г., Эдинбург, Шотландия. , Нью-Йорк, штат Нью-Йорк: ACM Press, ISBN 1-59593-323-9
  6. ^ "Основы SEO: что такое черное SEO?". IONOS Digitalguide . 23 мая 2017 г. Получено 22 августа 2022 г.
  7. ^ Smarty, Ann (2008-12-17). "Что такое BlackHat SEO? 5 определений". Search Engine Journal . Архивировано из оригинала 2012-06-21 . Получено 2012-07-05 .
  8. ^ Нерелевантные ключевые слова , Руководство Google по качеству ключевых слов
  9. ^ Панда, которая ненавидит фермы: вопросы и ответы с ведущими инженерами поисковой системы Google , Wired.com, 3 марта 2011 г.
  10. ^ Все о новом обновлении Google «Hummingbird» , SearchEngineLand.com.com, 26 сентября 2013 г.
  11. ^ Фильтрация спама Bing URL Stuffing , блоги Bing.com, 10 сентября 2014 г.
  12. О языке: «Сеть находится в состоянии войны сама с собой» , Линтон Уикс, для National Public Radio , 15 июля 2010 г.
  13. ^ Монтти, Роджер (2020-10-03). "Все, что вам нужно знать о скрытом тексте и SEO". Search Engine Journal . Архивировано из оригинала 2021-11-22 . Получено 2021-11-22 .
  14. ^ "Google не использует метатег keywords в веб-рейтинге". Google для разработчиков . Google Inc. Получено 21 сентября 2009 г.
  15. ^ Segal, David (2011-02-13). "The Dirty Little Secrets of Search". The NY Times . Архивировано из оригинала 2012-07-23 . Получено 2012-07-03 .
  16. ^ Дэвисон, Брайан (2000), «Распознавание непотистских связей в Интернете» (PDF) , семинар AAAI-2000 по искусственному интеллекту для веб-поиска , Бостон: AAAI Press, стр. 23–28, архивировано (PDF) из оригинала 18.04.2007 , извлечено 23.10.2007
  17. ^ "Search Engines:Technology, Society, and Business - Marti Hearst, 29 августа 2005 г." (PDF) . berkeley.edu . Архивировано (PDF) из оригинала 8 июля 2007 г. . Получено 1 августа 2007 г. .
  18. ^ "Google нацеливает сайты, использующие частные сети блогов, на санкции за ручные действия в рейтинге". Search Engine Land . 2014-09-23. Архивировано из оригинала 2016-11-22 . Получено 2016-12-12 .
  19. ^ Шрайбер, Флора Рета (1973). Сибилла. Чикаго: Регнери. ISBN 0-8092-0001-5. OCLC  570440.
  20. ^ Koegel Buford, John F. (2009). "14". P2P-сети и приложения. Hong Heather Yu, Eng Keong Lua. Амстердам: Elsevier/Morgan Kaufmann. ISBN 978-0-12-374214-8. OCLC  318353755.
  21. ^ Финин, Тим; Джоши, Анупам; Колари, Пранам; Джава, Акшай; Кале, Анубхав; Карандикар, Амит (6 сентября 2008 г.). «Информационная экология социальных сетей и интернет-сообществ». Журнал ИИ . 29 (3): 77. doi : 10.1609/aimag.v29i3.2158 . hdl : 11603/12123 . ISSN  0738-4602.
  22. ^ Беванс, Брэндон (2016). Категоризация спама в блогах (диссертация). Библиотека Роберта Э. Кеннеди, Калифорнийский политехнический университет. doi : 10.15368/theses.2016.91 .
  23. ^ "Распад и падение гостевого блоггинга для SEO". mattcutts.com . 20 января 2014 г. Архивировано из оригинала 3 февраля 2015 г. Получено 11 января 2015 г.
  24. ^ Мишне, Гилад; Дэвид Кармель; Ронни Лемпель (2005). «Блокировка спама в блогах с помощью несогласованности языковой модели» (PDF) . Труды Первого международного семинара по состязательному поиску информации в Интернете . Архивировано (PDF) из оригинала 21.07.2011 . Получено 24.10.2007 .
  25. ^ "Скрытые перенаправления - Справка Search Console". support.google.com . Архивировано из оригинала 2015-05-18 . Получено 2015-05-14 .
  26. ^ "Новое: блокировка сайтов из результатов Google с помощью "личного списка блокировки" Chrome - Search Engine Land". searchengineland.com . 14 февраля 2011 г. Архивировано из оригинала 6 октября 2017 г. Получено 6 октября 2017 г.
  27. ^ Фиттлер, Андраш; Паццолай, Петер; Ашраф, Амир Реза; Пурхашеми, Амир; Ивани, Петер (08.11.2022). «Распространенность отравленных результатов поиска Google по лекарствам от эректильной дисфункции, перенаправляющих в нелегальные интернет-аптеки: исследование анализа данных». Журнал медицинских интернет-исследований . 24 (11): e38957. doi : 10.2196/38957 . PMC 9682446. PMID  36346655 . 

Внешние ссылки