Рейтинг страницы

Простая иллюстрация алгоритма Pagerank. Процент показывает воспринимаемую важность, а стрелки обозначают гиперссылки.

PageRank ( PR ) — это алгоритм , используемый поиском Google для ранжирования веб-страниц в результатах поисковых систем . Он назван в честь термина «веб-страница» и соучредителя Ларри Пейджа . PageRank — это способ измерения важности страниц веб-сайта. По данным Google:

PageRank подсчитывает количество и качество ссылок на страницу, чтобы приблизительно оценить важность веб-сайта. Основное предположение заключается в том, что более важные веб-сайты, скорее всего, получат больше ссылок с других веб-сайтов. ^[1]

В настоящее время PageRank — не единственный алгоритм, используемый Google для упорядочивания результатов поиска, но это первый алгоритм, использованный компанией, и он наиболее известен. ^[2]^[3] По состоянию на 24 сентября 2019 г. срок действия всех патентов, связанных с PageRank, истек. ^[4]

Описание

PageRank — это алгоритм анализа ссылок , который присваивает числовой вес каждому элементу набора документов, связанных гиперссылками , например, во Всемирной паутине , с целью «измерения» его относительной важности в наборе. Алгоритм может быть применен к любому набору сущностей с взаимными кавычками и ссылками. Числовой вес, который он присваивает любому данному элементу E, называется PageRank E и обозначается как $PR(E).$

PageRank является результатом математического алгоритма, основанного на веб-графе , созданном всеми страницами Всемирной паутины в качестве узлов и гиперссылками в качестве ребер, с учетом таких авторитетных центров, как cnn.com или mayoclinic.org . Значение ранга указывает на важность конкретной страницы. Гиперссылка на страницу считается голосом в поддержку. PageRank страницы определяется рекурсивно и зависит от количества и показателя PageRank всех страниц, которые ссылаются на нее (« входящие ссылки »). Страница, на которую ссылается множество страниц с высоким PageRank, сама получает высокий рейтинг.

После выхода оригинальной статьи Пейджа и Брина было опубликовано множество научных статей, касающихся PageRank. ^[5] На практике концепция PageRank может быть уязвима для манипуляций. Было проведено исследование по выявлению ложно влияющих на рейтинг PageRank. Цель состоит в том, чтобы найти эффективные средства игнорирования ссылок из документов с ложным влиянием PageRank. ^[6]

Другие алгоритмы ранжирования веб-страниц на основе ссылок включают алгоритм HITS, изобретенный Джоном Кляйнбергом (используется Teoma и теперь Ask.com ), проект IBM CLEVER , алгоритм TrustRank , алгоритм Hummingbird ^[7] и алгоритм SALSA . ^[8]

История

Проблема собственных значений , лежащая в основе алгоритма PageRank, была независимо переоткрыта и повторно использована во многих задачах оценки. В 1895 году Эдмунд Ландау предложил использовать его для определения победителя шахматного турнира. ^[9]^[10] Проблема собственных значений была также предложена в 1976 году Габриэлем Пински и Фрэнсисом Нарином, которые работали над наукометрическим рейтингом научных журналов, ^[11] в 1977 году Томасом Саати в его концепции процесса аналитической иерархии , которая взвешивала альтернативные варианты, ^{[ 12],} а в 1995 году Брэдли Лавом и Стивеном Сломаном в качестве когнитивной модели понятий — алгоритм центральности. ^[13]^[14]

Поисковая система RankDex от IDD Information Services, разработанная Робином Ли в 1996 году, разработала стратегию оценки сайта и ранжирования страниц. ^[15] Ли назвал свой механизм поиска «анализом ссылок», который включает в себя ранжирование популярности веб-сайта на основе количества других сайтов, ссылающихся на него. ^[16] RankDex, первая поисковая система с алгоритмами ранжирования страниц и сайтов, была запущена в 1996 году. ^[17] Ли подал патент на эту технологию в RankDex в 1997 году; он был предоставлен в 1999 году. ^[18] Позже он использовал его, когда основал Baidu в Китае в 2000 году. ^[19]^[20] Основатель Google Ларри Пейдж ссылался на работу Ли как на цитату в некоторых из своих американских патентов на PageRank. ^[21]^[17]^[22]

Ларри Пейдж и Сергей Брин разработали PageRank в Стэнфордском университете в 1996 году в рамках исследовательского проекта нового типа поисковой системы. Интервью с Эктором Гарсиа-Молиной , профессором Стэнфордской информатики и советником Сергея, ^[23] дает представление о разработке алгоритма ранжирования страниц. ^[24] У Сергея Брина возникла идея, что информацию в сети можно упорядочить в иерархии по «популярности ссылок»: страница занимает более высокий рейтинг, чем больше ссылок на нее. ^[25] Система была разработана с помощью Скотта Хассана и Алана Стеремберга, которые, по словам Пейджа и Брина, сыграли решающую роль в развитии Google. ^[5] Раджив Мотвани и Терри Виноград вместе с Пейджем и Брином написали в соавторстве с Пейджем и Брином первую статью о проекте, описывающую PageRank и первоначальный прототип поисковой системы Google , опубликованную в 1998 году. ^[5] Вскоре после этого Пейдж и Брин основали Google Inc. . , компания, создавшая поисковую систему Google. Хотя PageRank является лишь одним из многих факторов, определяющих рейтинг результатов поиска Google, он продолжает обеспечивать основу для всех инструментов веб-поиска Google. ^[26]

Название «PageRank» связано с именем разработчика Ларри Пейджа, а также с концепцией веб-страницы . ^[27]^[28] Это слово является товарным знаком Google, а процесс PageRank запатентован ( патент США 6,285,999 ). Однако патент принадлежит Стэнфордскому университету, а не Google. Google обладает эксклюзивными лицензионными правами на патент Стэнфордского университета. Университет получил 1,8 миллиона акций Google в обмен на использование патента; в 2005 году она продала акции за 336 миллионов долларов США . ^[29]^[30]

На PageRank повлиял анализ цитирования , ранее разработанный Юджином Гарфилдом в 1950-х годах в Университете Пенсильвании, и Hyper Search , разработанный Массимо Маркиори в Университете Падуи . В том же году, когда был введен PageRank (1998), Джон Кляйнберг опубликовал свою работу о HITS . Основатели Google цитируют Гарфилда, Маркиори и Кляйнберга в своих оригинальных статьях. ^[5]^[31]

Алгоритм

Алгоритм PageRank выводит распределение вероятностей , используемое для представления вероятности того, что человек, случайно нажимающий на ссылки, попадет на какую-либо конкретную страницу. PageRank можно рассчитать для коллекций документов любого размера. В нескольких исследовательских работах предполагается, что распределение равномерно разделено между всеми документами в коллекции в начале вычислительного процесса. Вычисления PageRank требуют нескольких проходов, называемых «итерациями», через коллекцию для корректировки приблизительных значений PageRank, чтобы они более точно отражали теоретическое истинное значение.

Вероятность выражается в виде числового значения от 0 до 1. Вероятность 0,5 обычно выражается как «вероятность 50%» того, что что-то произойдет. Следовательно, документ с PageRank 0,5 означает, что существует 50% вероятность того, что человек, нажавший на случайную ссылку, будет перенаправлен на указанный документ.

Упрощенный алгоритм

Предположим , что это небольшая вселенная из четырех веб-страниц: A , B , C и D. Ссылки со страницы на себя игнорируются. Несколько исходящих ссылок с одной страницы на другую рассматриваются как одна ссылка. PageRank инициализируется одинаковым значением для всех страниц. В исходной форме PageRank сумма PageRank по всем страницам представляла собой общее количество страниц в сети на тот момент, поэтому каждая страница в этом примере имела бы начальное значение 1. Однако более поздние версии PageRank и В оставшейся части этого раздела предположим, что распределение вероятностей находится между 0 и 1. Следовательно, начальное значение для каждой страницы в этом примере равно 0,25.

PageRank, передаваемый от данной страницы к целям ее исходящих ссылок на следующей итерации, делится поровну между всеми исходящими ссылками.

Если бы единственные ссылки в системе были со страниц B , C и D на A , каждая ссылка передала бы 0,25 PageRank на A при следующей итерации, что в сумме составит 0,75.

PR(A)=PR(B)+PR(C)+PR(D).\,

Предположим, что вместо этого страница B имеет ссылку на страницы C и A , страница C имеет ссылку на страницу A , а страница D содержит ссылки на все три страницы. Таким образом, при первой итерации страница B перенесет половину существующего значения (0,125) на страницу A , а другую половину (0,125) на страницу C. Страница C перенесет все свое существующее значение (0,25) на единственную страницу, на которую она ссылается, A . Поскольку у D было три исходящих канала, он перенес бы одну треть своей существующей стоимости, или примерно 0,083, в A. По завершении этой итерации страница А будет иметь PageRank примерно 0,458.

PR(A)={\frac {PR(B)}{2}}+{\frac {PR(C)}{1}}+{\frac {PR(D)}{3}}. \,

Другими словами, PageRank, присвоенный исходящей ссылкой, равен собственному рейтингу PageRank документа, деленному на количество исходящих ссылок L( ) .

PR(A)={\frac {PR(B)}{L(B)}}+{\frac {PR(C)}{L(C)}}+{\frac {PR(D) }{Л(Д)}}.\,

В общем случае значение PageRank для любой страницы u можно выразить как:

PR(u)=\sum _{v\in B_{u}}{\frac {PR(v)}{L(v)}}

т.е. значение PageRank для страницы u зависит от значений PageRank для каждой страницы v , содержащихся в наборе B _u (набор, содержащий все страницы, ссылающиеся на страницу u ), разделенных на количество L ( v ) ссылок со страницы v .

Коэффициент демпфирования

Теория PageRank утверждает, что воображаемый пользователь, случайно нажимающий на ссылки, в конечном итоге перестанет нажимать на них. Вероятность на любом этапе того, что человек продолжит переходить по ссылкам, является демпфирующим фактором d . Вероятность того, что вместо этого они перейдут на любую случайную страницу, равна 1 - d . В различных исследованиях проверялись разные коэффициенты демпфирования, но обычно предполагается, что коэффициент демпфирования будет установлен на уровне 0,85. ^[5]

Коэффициент демпфирования вычитается из 1 (а в некоторых вариантах алгоритма результат делится на количество документов ( N ) в коллекции), а затем этот член прибавляется к произведению коэффициента демпфирования и суммы входящие оценки PageRank. То есть,

PR(A)={1-d \over N}+d\left({\frac {PR(B)}{L(B)}}+{\frac {PR(C)}{L( C)}}+{\frac {PR(D)}{L(D)}}+\,\cdots \right).

Таким образом, PageRank любой страницы в значительной степени зависит от PageRank других страниц. Коэффициент демпфирования корректирует полученное значение в сторону уменьшения. Однако в оригинальной статье была приведена следующая формула, которая привела к некоторой путанице:

PR(A)=1-d+d\left({\frac {PR(B)}{L(B)}}+{\frac {PR(C)}{L(C)}}+ {\frac {PR(D)}{L(D)}}+\,\cdots \right).

Разница между ними в том, что значения PageRank в первой формуле в сумме равны единице, а во второй формуле каждый PageRank умножается на N , и сумма становится N. Утверждение в статье Пейджа и Брина о том, что «сумма всех PageRank равна единице» ^[5] и заявления других сотрудников Google ^[32] подтверждают первый вариант приведенной выше формулы.

Пейдж и Брин перепутали две формулы в своей самой популярной статье «Анатомия крупномасштабной гипертекстовой поисковой системы в Интернете», где они ошибочно заявили, что последняя формула формирует распределение вероятностей по веб-страницам. ^[5]

Google пересчитывает баллы PageRank каждый раз, когда сканирует Интернет и перестраивает свой индекс. По мере того как Google увеличивает количество документов в своей коллекции, начальное приближение PageRank уменьшается для всех документов.

В формуле используется модель случайного пользователя , который попадает на целевой сайт после нескольких кликов, а затем переключается на случайную страницу. Значение PageRank страницы отражает вероятность того, что случайный пользователь попадет на эту страницу, щелкнув ссылку. Ее можно понимать как цепь Маркова , в которой состояния являются страницами, а переходы — связями между страницами, причем все они равновероятны.

Если страница не имеет ссылок на другие страницы, она становится приемником и, следовательно, прекращает процесс случайного просмотра. Если случайный пользователь попадает на страницу приемника, он случайным образом выбирает другой URL-адрес и продолжает просмотр снова.

При расчете PageRank предполагается, что страницы без исходящих ссылок ссылаются на все остальные страницы в коллекции. Таким образом, их рейтинг PageRank делится поровну между всеми остальными страницами. Другими словами, чтобы быть честным со страницами, которые не являются приемниками, эти случайные переходы добавляются ко всем узлам в сети. Эта остаточная вероятность d обычно устанавливается равной 0,85 и оценивается на основе частоты, с которой средний пользователь использует функцию закладок своего браузера. Итак, уравнение выглядит следующим образом:

PR(p_{i})={\frac {1-d}{N}}+d\sum _{p_{j}\in M(p_{i})}{\frac {PR(p_ {j})}{L(p_{j})}}

где находятся рассматриваемые страницы, — набор страниц, ссылающихся на , — количество исходящих ссылок на странице , — общее количество страниц. $p_{1},p_{2},...,p_{N}$ $M(p_{i})$ $p_{i}$ $L(p_{j})$ $p_{j}$ $N$

Значения PageRank — это элементы доминирующего правого собственного вектора модифицированной матрицы смежности, масштаб которых изменен так, что сумма каждого столбца равна единице. Это делает PageRank особенно элегантным показателем: собственный вектор

\mathbf {R} = {\begin{bmatrix}PR(p_{1})\\PR(p_{2})\\\vdots \\PR(p_{N})\end{bmatrix}}

где R — решение уравнения

\mathbf {R} = {\begin{bmatrix}{(1-d)/N} \\{(1-d)/N} \\\vdots \\{(1-d)/N} \end{bmatrix}}+d{\begin{bmatrix}\ell (p_{1},p_{1})&\ell (p_{1},p_{2})&\cdots &\ell (p_{ 1},p_{N})\\\ell (p_{2},p_{1})&\ddots &&\vdots \\\vdots &&\ell (p_{i},p_{j})&\\ \ell (p_{N},p_{1})&\cdots &&\ell (p_{N},p_{N})\end{bmatrix}}\mathbf {R}

где функция смежности — это отношение количества исходящих ссылок со страницы j на страницу i к общему количеству исходящих ссылок страницы j. Функция смежности равна 0, если страница не ссылается на , и нормализуется так, что для каждого j $\ell (p_{i},p_{j})$ $p_{j}$ $p_{i}$

\sum _{i=1}^{N}\ell (p_{i},p_{j})=1

т.е. сумма элементов каждого столбца равна 1, поэтому матрица является стохастической матрицей (более подробную информацию см. в разделе «Вычисления» ниже). Таким образом, это вариант меры центральности собственного вектора , обычно используемой в сетевом анализе .

Из-за большого собственного зазора модифицированной матрицы смежности, приведенной выше, ^[33] значения собственного вектора PageRank могут быть аппроксимированы с высокой степенью точности всего за несколько итераций.

Основатели Google в своей оригинальной статье ^[31] сообщили, что алгоритм PageRank для сети, состоящей из 322 миллионов ссылок (входящих и исходящих), сходится в пределах допустимого предела за 52 итерации. Сходимость в сети вдвое меньшего размера заняла примерно 45 итераций. На основе этих данных они пришли к выводу, что алгоритм можно очень хорошо масштабировать и что коэффициент масштабирования для чрезвычайно больших сетей будет примерно линейным по , где n — размер сети. $\log n$

В результате теории Маркова можно показать, что PageRank страницы — это вероятность перехода на эту страницу после большого количества кликов. Это оказывается равным ожиданию количества кликов (или случайных переходов) , необходимых для перехода со страницы обратно на себя. $т^{-1}$ $т$

Одним из основных недостатков PageRank является то, что он отдает предпочтение старым страницам. На новой странице, даже очень хорошей, не будет много ссылок, если она не является частью существующего сайта (сайт представляет собой плотно связанный набор страниц, например, Википедия ).

Было предложено несколько стратегий для ускорения расчета PageRank. ^[34]

Различные стратегии манипулирования PageRank использовались в согласованных усилиях по улучшению рейтинга в результатах поиска и монетизации рекламных ссылок. Эти стратегии ^{серьезно} повлияли на надежность концепции PageRank, ^{которая призвана определить}^, какие документы на самом деле высоко ценятся веб-сообществом.

С декабря 2007 года, когда Google начал активно наказывать сайты, продающие платные текстовые ссылки, Google боролся с ссылочными фермами и другими схемами, предназначенными для искусственного завышения PageRank. То, как Google определяет фермы ссылок и другие инструменты манипулирования PageRank, является коммерческой тайной Google .

Вычисление

PageRank можно вычислять итеративно или алгебраически. Итерационный метод можно рассматривать как степенной итерационный метод ^[35]^[36] или степенной метод. Основные выполняемые математические операции идентичны.

Итеративный

При предполагается начальное распределение вероятностей, обычно $т=0$

PR(p_{i};0)={\frac {1}{N}}

где N — общее количество страниц, а — страница i в момент времени 0. $p_{i};0$

На каждом временном шаге вычисление, как подробно описано выше, дает

PR(p_{i};t+1)={\frac {1-d}{N}}+d\sum _{p_{j}\in M(p_{i})}{\frac {PR(p_{j};t)}{L(p_{j})}}

где d — коэффициент демпфирования,

или в матричной записи

где и — вектор-столбец длины, содержащий только единицы. $\mathbf {R} _{i}(t)=PR(p_{i};t)$ $\mathbf {1}$ $N$

Матрица определяется как ${\mathcal {M}}$

{\mathcal {M}}_{ij}={\begin{cases}1/L(p_{j}),&{\mbox{if }}j{\mbox{ links to }}i\ \\0,&{\mbox{otherwise}}\end{cases}}

то есть,

{\mathcal {M}}:=(K^{-1}A)^{T}

где обозначает матрицу смежности графа, а — диагональная матрица с исходящими степенями на диагонали. $A$ $K$

Расчет вероятности производится для каждой страницы в определенный момент времени, а затем повторяется для следующего момента времени. Вычисление заканчивается, когда для некоторого малого $\epsilon$

|\mathbf {R} (t+1)-\mathbf {R} (t)|<\epsilon

т. е. когда предполагается сходимость.

Силовой метод

Если матрица является вероятностью перехода, т. е. стохастической по столбцу, и представляет собой распределение вероятностей (т. е. , где - матрица всех единиц), то уравнение ( 2 ) эквивалентно ${\mathcal {M}}$ $\mathbf {R}$ $|\mathbf {R} |=1$ $\mathbf {E} \mathbf {R} =\mathbf {1}$ $\mathbf {E}$

Следовательно, PageRank является главным собственным вектором . Быстрый и простой способ вычислить это — использовать степенной метод : начиная с произвольного вектора , оператор применяется последовательно, т. е. $\mathbf {R}$ ${\widehat {\mathcal {M}}}$ $x(0)$ ${\widehat {\mathcal {M}}}$

x(t+1)={\widehat {\mathcal {M}}}x(t)

до

|x(t+1)-x(t)|<\epsilon

Обратите внимание, что в уравнении ( 3 ) матрицу в правой части скобок можно интерпретировать как

{\frac {1-d}{N}}\mathbf {E} =(1-d)\mathbf {P} \mathbf {1} ^{t}

где – начальное распределение вероятностей. в текущем случае $\mathbf {P}$

\mathbf {P} :={\frac {1}{N}}\mathbf {1}

Наконец, если столбцы имеют только нулевые значения, их следует заменить исходным вектором вероятности . Другими словами, ${\mathcal {M}}$ $\mathbf {P}$

{\mathcal {M}}^{\prime }:={\mathcal {M}}+{\mathcal {D}}

где матрица определяется как ${\mathcal {D}}$

{\mathcal {D}}:=\mathbf {P} \mathbf {D} ^{t}

\mathbf {D} _{i}={\begin{cases}1,&{\mbox{if }}L(p_{i})=0\ \\0,&{\mbox{otherwise}}\end{cases}}

В этом случае два приведенных выше вычисления дают одинаковый PageRank только в том случае, если их результаты нормализованы: ${\mathcal {M}}$

\mathbf {R} _{\textrm {power}}={\frac {\mathbf {R} _{\textrm {iterative}}}{|\mathbf {R} _{\textrm {iterative}}|}}={\frac {\mathbf {R} _{\textrm {algebraic}}}{|\mathbf {R} _{\textrm {algebraic}}|}}

Выполнение

Питон

импортировать  numpy  как  npdef  pagerank ( M ,  d :  float  =  0.85 ): """Алгоритм PageRank с явным количеством итераций. Возвращает рейтинг узлов (страниц) в матрице смежности.  Параметры  ----------  M : матрица смежности массива numpy  , где M_i,j представляет ссылку от 'j' до 'i', так что для всех 'j'  sum(i, M_i,j) = 1  d: плавающее значение, дополнительный  коэффициент демпфирования, по умолчанию 0,85. Возвращает  -------  массив numpy -  вектор рангов такой, что v_i — i-й ранг из [0, 1], "  " " N  =  M. shape [ 1 ] w = np.ones ( N ) / N M_hat = d * M v = M_hat @ w + ( 1 - d ) while ( np . linalg .norm ( w - v ) > = 1e-10 ): w = v v = M_hat @ w + ( 1 - d ) return v                                      М  =  нп . массив ([[ 0 ,  0 ,  0 ,  0 ],  [ 0 ,  0 ,  0 , 0 ] , [ 1 , 0,5 , 0 , 0 ], [ 0 , 0,5 , 1 , 0 ] ]) v = рейтинг страницы ( M , 0,85 )

Вариации

PageRank неориентированного графа

PageRank неориентированного графа статистически близок к распределению степеней графа ^[37] , но они, как правило, не идентичны: If – вектор PageRank, определенный выше, и – вектор распределения степеней $G$ $G$ $R$ $D$

D={1 \over 2|E|}{\begin{bmatrix}\deg(p_{1})\\\deg(p_{2})\\\vdots \\\deg(p_{N})\end{bmatrix}}

где обозначает степень вершины и является набором ребер графа, тогда при , ^[38] показывает, что: $\deg(p_{i})$ $p_{i}$ $E$ $Y={1 \over N}\mathbf {1}$

${1-d \over 1+d}\|Y-D\|_{1}\leq \|R-D\|_{1}\leq \|Y-D\|_{1},$

то есть PageRank неориентированного графа равен вектору распределения степеней тогда и только тогда, когда граф регулярен, т. е. каждая вершина имеет одинаковую степень.

Ранжирование объектов двух видов

Обобщение PageRank на случай ранжирования двух взаимодействующих групп объектов было описано Даугулисом. ^[39] В приложениях может возникнуть необходимость моделировать системы, имеющие объекты двух типов, где взвешенное отношение определяется для пар объектов. Это приводит к рассмотрению двудольных графов . Для таких графов можно определить две связанные положительные или неотрицательные неприводимые матрицы, соответствующие множествам разбиений вершин. Ранги объектов в обеих группах можно вычислить как собственные векторы, соответствующие максимальным положительным собственным значениям этих матриц. Нормированные собственные векторы существуют и уникальны по теореме Перрона или Перрона – Фробениуса. Пример: потребители и продукты. Вес отношения – это норма потребления продукта.

Распределенный алгоритм расчета PageRank

Сарма и др. описать два распределенных алгоритма на основе случайного блуждания для вычисления PageRank узлов в сети. ^[40] Один алгоритм с высокой вероятностью выполняет раунды на любом графе (направленном или ненаправленном), где n — размер сети, а — вероятность сброса ( , которая называется коэффициентом затухания), используемая при вычислении PageRank. Они также представляют более быстрый алгоритм, который выполняет обходы в неориентированных графах. В обоих алгоритмах каждый узел обрабатывает и отправляет за раунд определенное количество битов, полилогарифмическое от n — размера сети. $O(\log n/\epsilon )$ $\epsilon$ $1-\epsilon$ $O({\sqrt {\log n}}/\epsilon )$

Панель инструментов Google

На панели инструментов Google уже давно имеется функция PageRank, которая отображает PageRank посещенной страницы в виде целого числа от 0 (наименее популярный) до 10 (наиболее популярный). Google не раскрыл конкретный метод определения значения PageRank панели инструментов, которое следует рассматривать лишь как приблизительный показатель ценности веб-сайта. «Рейтинг панели инструментов» был доступен проверенным администраторам сайта через интерфейс Инструментов Google для веб-мастеров. Однако 15 октября 2009 года сотрудник Google подтвердил, что компания удалила PageRank из раздела «Инструменты для веб-мастеров» , заявив: «Мы уже давно говорим людям, что им не следует так сильно зацикливаться на PageRank. Многие сайты владельцы, кажется, думают, что это самый важный показатель , который им нужно отслеживать, но это неправда». ^[41]

«Рейтинг панели инструментов» обновлялся очень редко. Последний раз он обновлялся в ноябре 2013 года. В октябре 2014 года Мэтт Каттс объявил, что еще одного заметного обновления рейтинга страниц не будет. ^[42] В марте 2016 года Google объявил, что больше не будет поддерживать эту функцию, и базовый API вскоре перестанет работать. ^[43] 15 апреля 2016 года Google отключил отображение данных PageRank на панели инструментов Google, ^[44] хотя PageRank продолжал использоваться внутри компании для ранжирования контента в результатах поиска. ^[45]

Рейтинг в поисковой выдаче

Страница результатов поисковой системы ( SERP) — это фактический результат, возвращаемый поисковой системой в ответ на запрос по ключевому слову. SERP состоит из списка ссылок на веб-страницы с соответствующими текстовыми фрагментами, платными объявлениями, избранными фрагментами и вопросами и ответами. Рейтинг веб-страницы в поисковой выдаче относится к размещению соответствующей ссылки в поисковой выдаче, где более высокое размещение означает более высокий рейтинг в поисковой выдаче. Рейтинг веб-страницы в поисковой выдаче зависит не только от ее PageRank, но и от относительно большого и постоянно корректируемого набора факторов (более 200). ^[46]^{[ ненадежный источник? ]} Поисковая оптимизация (SEO) направлена на повышение рейтинга веб-сайта или набора веб-страниц в поисковой выдаче.

Позиционирование веб-страницы в поисковой выдаче Google по ключевому слову зависит от релевантности и репутации, также известных как авторитет и популярность. PageRank — это показатель Google оценки репутации веб-страницы: он не зависит от ключевого слова. Google использует комбинацию авторитетности веб-страницы и веб-сайта, чтобы определить общий авторитет веб-страницы, конкурирующей за ключевое слово. ^[47] PageRank домашней страницы веб-сайта является лучшим индикатором авторитетности веб-сайта, предлагаемым Google. ^[48]

После внедрения Google Адресов в основную органическую поисковую выдачу на рейтинг компании в результатах местного бизнеса влияет множество других факторов, помимо PageRank. ^[49] Когда Google подробно рассказал о причинах снижения рейтинга PageRank на конференции «Вопросы и ответы» #март 2016 г., они объявили ссылки и контент главными факторами ранжирования. Ранее, в октябре 2015 года, RankBrain был объявлен фактором ранжирования №3, поэтому Google официально подтвердил три главных фактора. ^[50]

PageRank в каталоге Google

PageRank каталога Google измерялся 8 единицами. В отличие от панели инструментов Google, которая показывает числовое значение PageRank при наведении курсора мыши на зеленую полосу, в Каталоге Google отображается только полоса, а не числовые значения. Каталог Google был закрыт 20 июля 2011 г. ^[51]

Ложный или поддельный PageRank

Было известно, что PageRank, отображаемый на панели инструментов, можно было легко подделать . Перенаправление с одной страницы на другую либо через ответ HTTP 302 , либо через метатег «Обновить» приводило к тому, что исходная страница получала PageRank целевой страницы. Следовательно, новая страница с PR 0 и отсутствием входящих ссылок могла бы получить PR 10 при перенаправлении на домашнюю страницу Google. Подделку обычно можно обнаружить, выполнив поиск в Google исходного URL-адреса; если в результатах отображается URL-адрес совершенно другого сайта, последний URL-адрес может представлять собой пункт назначения перенаправления.

Манипулирование PageRank

В целях поисковой оптимизации некоторые компании предлагают продавать ссылки с высоким PageRank веб-мастерам. ^[52] Поскольку ссылки со страниц с более высоким PR считаются более ценными, они, как правило, стоят дороже. Покупка рекламных ссылок на качественных страницах контента и соответствующих сайтах может быть эффективной и жизнеспособной маркетинговой стратегией для привлечения трафика и повышения популярности ссылок веб-мастера. Однако Google публично предупредил веб-мастеров, что если они продают ссылки с целью повышения PageRank и репутации, их ссылки будут обесценены (игнорируются при расчете PageRank других страниц). Практика покупки и продажи ^[53] активно обсуждается в сообществе веб-мастеров. Google посоветовал веб-мастерам использовать значение HTML-атрибута nofollow в платных ссылках. По словам Мэтта Каттса , Google обеспокоен веб-мастерами, которые пытаются обмануть систему и тем самым снизить качество и релевантность результатов поиска Google. ^[52]

В 2019 году Google предложил новый тип тегов, которые не передают PageRank и, следовательно, не имеют значения для манипулирования ссылками SEO: rel="ugc" в качестве тега для пользовательского контента, такого как комментарии; и тег rel="sponsored" для рекламы или других типов спонсируемого контента. ^[54]

Несмотря на то, что PageRank стал менее важным для целей SEO, наличие обратных ссылок с более популярных веб-сайтов продолжает поднимать веб-страницу выше в поисковых рейтингах. ^[55]

Модель направленного серфера

Более умный пользователь, который вероятностно перескакивает со страницы на страницу в зависимости от содержания страниц и условий запроса, которые ищет пользователь. Эта модель основана на зависящем от запроса рейтинге PageRank страницы, который, как следует из названия, также является функцией запроса. При получении запроса с несколькими терминами пользователь выбирает a в соответствии с некоторым распределением вероятностей и использует этот термин для управления своим поведением на большом количестве шагов. Затем он выбирает другой термин в соответствии с распределением, чтобы определить свое поведение, и так далее. Результирующее распределение по посещенным веб-страницам представляет собой QD-PageRank. ^[56] $Q=\{q1,q2,\cdots \}$ $q$ $P(q)$

Социальные компоненты

Катя Майер рассматривает PageRank как социальную сеть, объединяющую различные точки зрения и мысли в одном месте. ^[57] Люди заходят на PageRank за информацией и завалены цитатами других авторов, у которых также есть мнение по этой теме. Это создает социальный аспект, где все можно обсудить и собрать, чтобы спровоцировать размышления. Между PageRank и людьми, которые его используют, существует социальная связь, поскольку он постоянно адаптируется и меняется к изменениям в современном обществе. Просмотр взаимосвязи между PageRank и личностью с помощью социометрии позволяет более глубоко изучить возникающую связь.

Маттео Паскинелли ^[58] считает, что в основе убеждения в том, что PageRank имеет социальный компонент, лежит идея экономики внимания . При экономии внимания ценность придается продуктам, которые привлекают больше человеческого внимания, а результаты, находящиеся в верхней части PageRank, привлекают большее внимание, чем результаты на последующих страницах. Таким образом, результаты с более высоким PageRank будут в большей степени проникать в человеческое сознание. Эти идеи могут влиять на принятие решений, а действия зрителя имеют прямое отношение к PageRank. Они обладают более высоким потенциалом привлечения внимания пользователя, поскольку их расположение увеличивает экономию внимания, прилагаемую к сайту. Благодаря этому местоположению они смогут получать больше трафика, а на их онлайн-рынке будет больше покупок. PageRank этих сайтов позволяет им доверять, и они могут использовать это доверие для увеличения бизнеса.

Другое использование

Математика PageRank полностью общая и применима к любому графу или сети в любой области. Таким образом, PageRank теперь регулярно используется в библиометрии, анализе социальных и информационных сетей, а также для прогнозирования и рекомендации ссылок. Он используется для системного анализа дорожных сетей, а также в биологии, химии, нейробиологии и физике. ^[59]

Научные исследования и академические круги

PageRank использовался для количественной оценки научного вклада исследователей. Базовые сети цитирования и сотрудничества используются в сочетании с алгоритмом рейтинга страниц, чтобы создать систему ранжирования отдельных публикаций, которая распространяется на отдельных авторов. Новый индекс, известный как индекс PageRank (Pi), оказался более справедливым по сравнению с индексом Хирша в контексте многих недостатков, присущих индексу Хирша. ^[60]

PageRank также является полезным инструментом для анализа белковых сетей в биологии. ^[61]^[62]

В любой экосистеме модифицированная версия PageRank может использоваться для определения видов, которые необходимы для постоянного поддержания здоровья окружающей среды. ^[63]

Аналогичное новое использование PageRank заключается в ранжировании академических докторских программ на основе данных о размещении их выпускников на преподавательских должностях. С точки зрения PageRank академические факультеты связываются друг с другом, нанимая преподавателей друг у друга (и у самих себя). ^[64]

Версия PageRank недавно была предложена в качестве замены традиционного импакт-фактора Института научной информации (ISI) ^[65] и реализована в Eigenfactor , а также в SCImago . Вместо простого подсчета общего количества цитирований в журнале «важность» каждой цитаты определяется с помощью PageRank.

В нейробиологии было обнаружено , что PageRank нейрона в нейронной сети коррелирует с его относительной скоростью срабатывания. ^[66]

Использование Интернета

Персонализированный PageRank используется Twitter для предоставления пользователям других учетных записей, на которые они, возможно, захотят подписаться. ^[67]

Продукт поиска по сайту Swiftype создает «PageRank, специфичный для отдельных веб-сайтов», анализируя сигналы важности каждого веб-сайта и расставляя приоритеты контента на основе таких факторов, как количество ссылок с главной страницы. ^[68]

Поисковый робот может использовать PageRank как один из ряда важных показателей, которые он использует для определения того, какой URL-адрес посетить во время сканирования Интернета. Одним из первых рабочих документов ^[69] , которые использовались при создании Google, является «Эффективное сканирование посредством упорядочения URL-адресов» , ^[70] в котором обсуждается использование ряда различных показателей важности для определения того, насколько глубоко и какую часть сайта Google поползет. PageRank представлен как один из многих таких показателей важности, хотя есть и другие, такие как количество входящих и исходящих ссылок для URL-адреса и расстояние от корневого каталога сайта до URL-адреса.

PageRank также может использоваться в качестве методологии для измерения очевидного влияния такого сообщества, как блогосфера, на саму сеть в целом. Таким образом, этот подход использует PageRank для измерения распределения внимания, что отражает парадигму безмасштабной сети . ^{[ нужна цитата ]}

Другие приложения

В 2005 году в пилотном исследовании «Структурная глубокая демократия», проведенном в Пакистане, SD2 ^[71]^[72] использовался для отбора лидеров в группе устойчивого сельского хозяйства под названием «Контактная молодежь». SD2 использует PageRank для обработки транзитивных голосов по доверенности с дополнительными ограничениями, требующими наличия как минимум двух первоначальных доверенных лиц на каждого избирателя, и все избиратели являются доверенными кандидатами. На основе SD2 могут быть построены более сложные варианты, такие как добавление специализированных доверенных лиц и прямое голосование по конкретным вопросам, но SD2, как базовая зонтичная система, требует всегда использовать универсальные доверенные лица.

В спорте алгоритм PageRank использовался для ранжирования результатов: команд Национальной футбольной лиги (НФЛ) в США; ^[73] отдельные футболисты; ^[74] и спортсмены Бриллиантовой лиги. ^[75]

PageRank использовался для ранжирования пространств или улиц, чтобы предсказать, сколько людей (пешеходов или транспортных средств) приходит в отдельные места или улицы. ^[76]^[77] В лексической семантике он использовался для устранения неоднозначности смысла слова , ^[78] Семантического сходства , ^[79] , а также для автоматического ранжирования синсетов WordNet в соответствии с тем, насколько сильно они обладают данным семантическим свойством, таким как позитивность или негатив. ^[80]

Изменение режима работы транспортной системы можно описать переходами между квазистационарными состояниями в корреляционных структурах транспортных потоков. PageRank использовался для выявления и изучения доминирующих состояний среди этих квазистационарных состояний в дорожных системах. ^[81]

не следует

В начале 2005 года Google ввел новое значение « nofollow » ^[82] для атрибута rel HTML-ссылок и элементов привязки, чтобы разработчики веб-сайтов и блоггеры могли создавать ссылки, которые Google не будет учитывать для целей PageRank — они ссылки, которые больше не представляют собой «голосование» в системе PageRank. Отношение nofollow было добавлено в попытке помочь в борьбе со спамдексом .

Например, раньше люди могли создавать множество сообщений на досках объявлений со ссылками на свой веб-сайт, чтобы искусственно повысить свой PageRank. Используя значение nofollow, администраторы досок объявлений могут изменить свой код, чтобы автоматически вставлять «rel='nofollow'» во все гиперссылки в сообщениях, тем самым предотвращая влияние этих конкретных сообщений на PageRank. Однако этот метод уклонения также имеет различные недостатки, такие как снижение ценности ссылок на законные комментарии. (См.: Спам в блогах#nofollow )

Стремясь вручную контролировать поток PageRank между страницами веб-сайта, многие веб-мастера практикуют так называемое моделирование PageRank ^[83] — это стратегический процесс размещения атрибута nofollow на определенных внутренних ссылках веб-сайта с целью PageRank относительно тех страниц, которые веб-мастер считает наиболее важными. Эта тактика использовалась с момента появления атрибута nofollow, но, возможно, больше не будет эффективной, поскольку Google объявил, что блокировка передачи PageRank с помощью nofollow не перенаправляет этот PageRank на другие ссылки. ^[84]

Смотрите также

Неравенство внимания
ЧейРанк
Авторитет домена
EigenTrust — децентрализованный алгоритм PageRank
Google бомбит
Гугл Колибри
Матрица Google
Гугл Панда
Гугл Пингвин
Поиск Гугл
Алгоритм вершины холма
Центральность Каца - схема 1953 года, тесно связанная с рейтингом страниц.
Создание ссылок
Поисковая оптимизация
SimRank — мера сходства объектов, основанная на модели случайного пользователя.
ТрастРанк
VisualRank — приложение Google PageRank для поиска изображений.
Вебграф

Соответствующие патенты

Оригинальный патент США PageRank — метод ранжирования узлов в связанной базе данных. Архивировано 29 августа 2014 г. в Wayback Machine — патент № 6 285 999 — 4 сентября 2001 г.
Патент США PageRank — Метод оценки документов в связанной базе данных — Патент номер 6,799,176 — 28 сентября 2004 г.
Патент США PageRank — метод ранжирования узлов в связанной базе данных. Архивировано 28 августа 2019 г. на Wayback Machine — патент № 7 058 628 — 6 июня 2006 г.
Патент США PageRank — Оценка документов в связанной базе данных. Архивировано 31 марта 2018 г. на Wayback Machine — Патент номер 7 269 587 — 11 сентября 2007 г.

Внешние ссылки

В Wikiquote есть цитаты, связанные с PageRank .

Алгоритмы от Google
Наши продукты и услуги от Google
Как Google находит вашу иголку в стоге сена в Интернете, Американское математическое общество