PageRank ( PR ) — это алгоритм , используемый Google Search для ранжирования веб-страниц в результатах поиска . Он назван в честь термина «веб-страница» и соучредителя Ларри Пейджа . PageRank — это способ измерения важности страниц веб-сайта. Согласно Google:
PageRank работает, подсчитывая количество и качество ссылок на страницу, чтобы определить приблизительную оценку важности веб-сайта. Основное предположение заключается в том, что более важные веб-сайты, скорее всего, получат больше ссылок с других веб-сайтов. [1]
В настоящее время PageRank — не единственный алгоритм, используемый Google для упорядочивания результатов поиска, но это первый алгоритм, который использовала компания, и он является самым известным. [2] [3] По состоянию на 24 сентября 2019 года все патенты, связанные с PageRank, истекли. [4]
PageRank — это алгоритм анализа ссылок , который присваивает числовой вес каждому элементу набора гиперссылок , например, World Wide Web , с целью «измерения» его относительной важности в наборе. Алгоритм может быть применен к любой коллекции сущностей с взаимными цитатами и ссылками. Числовой вес, который он присваивает любому заданному элементу E, называется PageRank E и обозначается как
PageRank является результатом математического алгоритма, основанного на веб-графе , созданном всеми страницами Всемирной паутины как узлами и гиперссылками как ребрами, принимая во внимание такие авторитетные хабы, как cnn.com или mayoclinic.org . Значение ранга указывает на важность конкретной страницы. Гиперссылка на страницу считается голосом поддержки. PageRank страницы определяется рекурсивно и зависит от количества и метрики PageRank всех страниц, которые ссылаются на нее (« входящие ссылки »). Страница, на которую ссылается много страниц с высоким PageRank, сама получает высокий ранг.
Многочисленные научные работы, касающиеся PageRank, были опубликованы после оригинальной статьи Пейджа и Брина. [5] На практике концепция PageRank может быть уязвима для манипуляций. Были проведены исследования по выявлению ложно влияющих рейтингов PageRank. Цель состоит в том, чтобы найти эффективные средства игнорирования ссылок из документов с ложно влияющим PageRank. [6]
Другие алгоритмы ранжирования веб-страниц на основе ссылок включают алгоритм HITS, изобретенный Джоном Клейнбергом (используется Teoma и теперь Ask.com ), проект IBM CLEVER , алгоритм TrustRank , алгоритм Hummingbird [7] и алгоритм SALSA [8] .
Проблема собственных значений , лежащая в основе алгоритма PageRank, была независимо переоткрыта и повторно использована во многих задачах подсчета очков. В 1895 году Эдмунд Ландау предложил использовать ее для определения победителя шахматного турнира. [9] [10] Проблема собственных значений была также предложена в 1976 году Габриэлем Пински и Фрэнсисом Нарином, которые работали над наукометрическим ранжированием научных журналов, [11] в 1977 году Томасом Саати в его концепции аналитического иерархического процесса , который взвешивал альтернативные варианты, [12] и в 1995 году Брэдли Лавом и Стивеном Сломаном в качестве когнитивной модели для концепций, алгоритма центральности. [13] [14]
Поисковая система под названием « RankDex » от IDD Information Services, разработанная Робином Ли в 1996 году, разработала стратегию для оценки сайтов и ранжирования страниц. [15] Ли называл свой поисковый механизм «анализом ссылок», который включал в себя ранжирование популярности веб-сайта на основе того, сколько других сайтов ссылались на него. [16] RankDex, первая поисковая система с алгоритмами ранжирования страниц и оценки сайтов, была запущена в 1996 году. [17] Ли подал патент на технологию RankDex в 1997 году; он был выдан в 1999 году. [18] Позже он использовал ее, когда основал Baidu в Китае в 2000 году. [19] [20] Основатель Google Ларри Пейдж ссылался на работу Ли в качестве цитаты в некоторых своих патентах США на PageRank. [21] [17] [22]
Ларри Пейдж и Сергей Брин разработали PageRank в Стэнфордском университете в 1996 году в рамках исследовательского проекта о новом типе поисковой системы. Интервью с Гектором Гарсиа-Молиной , профессором компьютерных наук Стэнфорда и научным руководителем Сергея, [23] дает представление о разработке алгоритма PageRank. [24] У Сергея Брина была идея, что информацию в Интернете можно упорядочить в иерархии по «ссылочной популярности»: страница ранжируется выше, если на нее больше ссылок. [25] Система была разработана с помощью Скотта Хассана и Алана Стеремберга, которых Пейдж и Брин цитировали как критически важных для развития Google. [5] Раджив Мотвани и Терри Виноград совместно с Пейджем и Брином написали первую статью о проекте, описывающую PageRank и первоначальный прототип поисковой системы Google , опубликованную в 1998 году. [5] Вскоре после этого Пейдж и Брин основали Google Inc. , компанию, стоящую за поисковой системой Google. Хотя PageRank является лишь одним из многих факторов, определяющих рейтинг результатов поиска Google, он продолжает оставаться основой для всех инструментов веб-поиска Google. [26]
Название «PageRank» обыгрывает имя разработчика Ларри Пейджа, а также концепцию веб-страницы . [27] [28] Слово является торговой маркой Google, а процесс PageRank запатентован ( патент США 6 285 999 ). Однако патент принадлежит Стэнфордскому университету, а не Google. Google имеет исключительные лицензионные права на патент от Стэнфордского университета. Университет получил 1,8 миллиона акций Google в обмен на использование патента; он продал акции в 2005 году за 336 миллионов долларов США . [29] [30]
PageRank находился под влиянием анализа цитирования , разработанного Юджином Гарфилдом в 1950-х годах в Университете Пенсильвании, и Hyper Search , разработанного Массимо Маркиори в Университете Падуи . В том же году, когда был представлен PageRank (1998), Джон Клейнберг опубликовал свою работу о HITS . Основатели Google цитируют Гарфилда, Маркиори и Клейнберга в своих оригинальных работах. [5] [31]
Алгоритм PageRank выводит распределение вероятностей, используемое для представления вероятности того, что человек, случайно нажимающий на ссылки, попадет на определенную страницу. PageRank можно рассчитать для коллекций документов любого размера. В нескольких исследовательских работах предполагается, что распределение равномерно распределено между всеми документами в коллекции в начале вычислительного процесса. Вычисления PageRank требуют нескольких проходов, называемых «итерациями», по коллекции для корректировки приблизительных значений PageRank для более точного отражения теоретического истинного значения.
Вероятность выражается как числовое значение от 0 до 1. Вероятность 0,5 обычно выражается как "50% шанс" того, что что-то произойдет. Таким образом, документ с PageRank 0,5 означает, что существует 50% шанс того, что человек, нажимающий на случайную ссылку, будет перенаправлен на указанный документ.
Предположим, что существует небольшая вселенная из четырех веб-страниц: A , B , C и D. Ссылки со страницы на саму себя игнорируются. Несколько исходящих ссылок с одной страницы на другую рассматриваются как одна ссылка. PageRank инициализируется одним и тем же значением для всех страниц. В исходной форме PageRank сумма PageRank по всем страницам была общим числом страниц в сети на тот момент, поэтому каждая страница в этом примере имела бы начальное значение 1. Однако более поздние версии PageRank и оставшаяся часть этого раздела предполагают распределение вероятностей между 0 и 1. Следовательно, начальное значение для каждой страницы в этом примере равно 0,25.
PageRank, переданный с данной страницы на цели ее исходящих ссылок при следующей итерации, делится поровну между всеми исходящими ссылками.
Если бы в системе были только ссылки со страниц B , C и D на страницу A , то каждая ссылка передала бы 0,25 PageRank странице A при следующей итерации, что в сумме составило бы 0,75.
Предположим вместо этого, что страница B имеет ссылку на страницы C и A , страница C имеет ссылку на страницу A , а страница D имеет ссылки на все три страницы. Таким образом, при первой итерации страница B передаст половину своего существующего значения (0,125) странице A , а другую половину (0,125) странице C . Страница C передаст все свое существующее значение (0,25) единственной странице, на которую она ссылается, A . Поскольку у D было три исходящих ссылки, она передаст одну треть своего существующего значения, или приблизительно 0,083, на A . По завершении этой итерации страница A будет иметь PageRank приблизительно 0,458.
Другими словами, PageRank, присваиваемый исходящей ссылкой, равен собственному рейтингу PageRank документа, деленному на количество исходящих ссылок L( ) .
В общем случае значение PageRank для любой страницы u можно выразить как:
т.е. значение PageRank для страницы u зависит от значений PageRank для каждой страницы v, содержащейся в наборе B u (наборе, содержащем все страницы, ссылающиеся на страницу u ), деленных на количество L ( v ) ссылок со страницы v .
Теория PageRank утверждает, что воображаемый серфер, который случайно нажимает на ссылки, в конечном итоге прекратит нажимать. Вероятность того, что на любом этапе человек продолжит следовать ссылкам, является фактором затухания d . Вероятность того, что он вместо этого перейдет на любую случайную страницу, составляет 1 - d . Различные исследования тестировали различные факторы затухания, но обычно предполагается, что фактор затухания будет установлен около 0,85. [5]
Коэффициент затухания вычитается из 1 (а в некоторых вариантах алгоритма результат делится на количество документов ( N ) в коллекции), а затем этот член добавляется к произведению коэффициента затухания и суммы входящих оценок PageRank. То есть,
Таким образом, PageRank любой страницы в значительной степени выводится из PageRank других страниц. Фактор затухания корректирует выведенное значение в сторону понижения. Однако в оригинальной статье была дана следующая формула, которая привела к некоторой путанице:
Разница между ними заключается в том, что сумма значений PageRank в первой формуле равна единице, тогда как во второй формуле каждый PageRank умножается на N , и сумма становится N. Утверждение в статье Пейджа и Брина о том, что «сумма всех PageRank равна единице» [5] , а также заявления других сотрудников Google [32] подтверждают первый вариант приведенной выше формулы.
Пейдж и Брин перепутали эти две формулы в своей самой популярной статье «Анатомия крупномасштабной гипертекстовой поисковой системы в Интернете», где они ошибочно утверждали, что последняя формула формирует распределение вероятностей по веб-страницам. [5]
Google пересчитывает баллы PageRank каждый раз, когда сканирует Интернет и перестраивает свой индекс. По мере того, как Google увеличивает количество документов в своей коллекции, начальное приближение PageRank уменьшается для всех документов.
Формула использует модель случайного серфера , который достигает своего целевого сайта после нескольких кликов, а затем переключается на случайную страницу. Значение PageRank страницы отражает вероятность того, что случайный серфер попадет на эту страницу, нажав на ссылку. Его можно понимать как цепь Маркова , в которой состояния — это страницы, а переходы — это связи между страницами — все из которых равновероятны.
Если страница не имеет ссылок на другие страницы, она становится стоком и, следовательно, завершает процесс случайного серфинга. Если случайный серфер попадает на страницу стока, он выбирает другой URL наугад и продолжает серфинг снова.
При расчете PageRank предполагается, что страницы без исходящих ссылок ссылаются на все остальные страницы в коллекции. Поэтому их оценки PageRank делятся поровну между всеми остальными страницами. Другими словами, чтобы быть честным со страницами, которые не являются стоками, эти случайные переходы добавляются ко всем узлам в Интернете. Эта остаточная вероятность, d , обычно устанавливается на уровне 0,85, оцениваемая на основе частоты, с которой средний пользователь использует функцию закладок своего браузера. Таким образом, уравнение выглядит следующим образом:
где — рассматриваемые страницы, — набор страниц, ссылающихся на , — количество исходящих ссылок на странице , — общее количество страниц.
Значения PageRank являются записями доминирующего правого собственного вектора модифицированной матрицы смежности, перемасштабированными так, чтобы каждый столбец в сумме давал единицу. Это делает PageRank особенно элегантной метрикой: собственный вектор равен
где R — решение уравнения
где функция смежности — это отношение количества исходящих ссылок со страницы j на страницу i к общему количеству исходящих ссылок страницы j. Функция смежности равна 0, если страница не ссылается на , и нормализована таким образом, что для каждого j
т.е. сумма элементов каждого столбца равна 1, поэтому матрица является стохастической (более подробную информацию см. в разделе вычислений ниже). Таким образом, это вариант меры центральности собственного вектора, обычно используемой в сетевом анализе .
Из-за большого собственного интервала модифицированной матрицы смежности, приведенной выше, [33] значения собственного вектора PageRank могут быть аппроксимированы с высокой степенью точности всего за несколько итераций.
Основатели Google в своей оригинальной статье [31] сообщили, что алгоритм PageRank для сети, состоящей из 322 миллионов ссылок (входящих и исходящих), сходится к допустимому пределу за 52 итерации. Сходимость в сети размером в половину указанного выше заняла примерно 45 итераций. С помощью этих данных они пришли к выводу, что алгоритм можно очень хорошо масштабировать и что коэффициент масштабирования для чрезвычайно больших сетей будет примерно линейным по , где n — размер сети.
В результате теории Маркова можно показать, что PageRank страницы — это вероятность попадания на эту страницу после большого количества кликов. Это равно , где — ожидание количества кликов (или случайных переходов), необходимых для возвращения со страницы на нее же.
Одним из главных недостатков PageRank является то, что он отдает предпочтение старым страницам. Новая страница, даже очень хорошая, не будет иметь много ссылок, если она не является частью существующего сайта (сайт — это плотно связанный набор страниц, например, Wikipedia ).
Было предложено несколько стратегий для ускорения вычисления PageRank. [34]
Различные стратегии манипулирования PageRank были использованы в согласованных усилиях по улучшению рейтингов результатов поиска и монетизации рекламных ссылок. Эти стратегии серьезно повлияли на надежность концепции PageRank, [ необходима цитата ] , которая подразумевает определение того, какие документы действительно высоко ценятся веб-сообществом.
С декабря 2007 года, когда Google начал активно наказывать сайты, продающие платные текстовые ссылки, он боролся с фермами ссылок и другими схемами, предназначенными для искусственного завышения PageRank. То, как Google выявляет фермы ссылок и другие инструменты манипулирования PageRank, является одной из коммерческих тайн Google .
PageRank может быть вычислен итеративно или алгебраически. Итеративный метод можно рассматривать как метод степенной итерации [35] [36] или степенной метод. Основные выполняемые математические операции идентичны.
При предполагается начальное распределение вероятностей, обычно
где N — общее количество страниц, а — страница i в момент времени 0.
На каждом временном шаге вычисление, как подробно описано выше, дает
где d — коэффициент затухания,
или в матричной записи
где и — вектор-столбец длины, содержащий только единицы.
Матрица определяется как
т.е.,
где обозначает матрицу смежности графа, а — диагональная матрица с исходящими степенями на диагонали.
Расчет вероятности производится для каждой страницы в определенный момент времени, затем повторяется для следующего момента времени. Расчет заканчивается, когда для некоторого небольшого
т.е. когда предполагается сходимость.
Если матрица является матрицей вероятности перехода, т.е. стохастической по столбцам, и является распределением вероятностей (т.е. , где — матрица из всех единиц), то уравнение ( 2 ) эквивалентно
Следовательно PageRank является главным собственным вектором . Быстрый и простой способ вычисления этого — использовать метод мощности : начиная с произвольного вектора , оператор применяется последовательно, т.е.
до
Обратите внимание, что в уравнении ( 3 ) матрицу в правой части в скобках можно интерпретировать как
где — начальное распределение вероятностей. В текущем случае
Наконец, если имеет столбцы только с нулевыми значениями, их следует заменить начальным вектором вероятности . Другими словами,
где матрица определяется как
с
В этом случае два приведенных выше вычисления дают одинаковый PageRank только в том случае, если их результаты нормализованы:
импортировать numpy как npdef pagerank ( M , d : float = 0.85 ): """Алгоритм PageRank с явным числом итераций. Возвращает рейтинг узлов (страниц) в матрице смежности. Параметры ---------- M : матрица смежности массива numpy , где M_i,j представляет собой связь от 'j' к 'i', такую, что для всех 'j' sum(i, M_i,j) = 1 d : float, необязательный коэффициент затухания, по умолчанию 0,85 Возвращает ------- массив numpy вектор рангов, такой что v_i является i-м рангом из [0, 1], """ N = M . shape [ 1 ] w = np . ones ( N ) / N M_hat = d * M v = M_hat @ w + ( 1 - d ) while ( np . linalg . norm ( w - v ) >= 1e-10 ): w = v v = M_hat @ w + ( 1 - d ) return vM = np . array ([[ 0 , 0 , 0 , 0 ], [ 0 , 0 , 0 , 0 ], [ 1 , 0.5 , 0 , 0 ], [ 0 , 0.5 , 1 , 0 ]]) v = pagerank ( M , 0.85 )
PageRank неориентированного графа статистически близок к распределению степеней графа , [37] но они, как правило, не идентичны: если — вектор PageRank, определенный выше, а — вектор распределения степеней
где обозначает степень вершины , а — множество ребер графа, тогда, при , [38] показывает, что:
то есть PageRank неориентированного графа равен вектору распределения степеней тогда и только тогда, когда граф является регулярным, то есть каждая вершина имеет одинаковую степень.
Обобщение PageRank для случая ранжирования двух взаимодействующих групп объектов было описано Даугулисом. [39] В приложениях может потребоваться моделировать системы, имеющие объекты двух видов, где взвешенное отношение определено на парах объектов. Это приводит к рассмотрению двудольных графов . Для таких графов могут быть определены две связанные положительные или неотрицательные неприводимые матрицы, соответствующие множествам разбиений вершин. Можно вычислить ранжирование объектов в обеих группах как собственные векторы, соответствующие максимальным положительным собственным значениям этих матриц. Нормированные собственные векторы существуют и являются уникальными по теореме Перрона или Перрона–Фробениуса. Пример: потребители и продукты. Вес отношения — это скорость потребления продукта.
Сарма и др. описывают два распределенных алгоритма на основе случайного блуждания для вычисления PageRank узлов в сети. [40] Один алгоритм принимает раунды с высокой вероятностью на любом графе (направленном или ненаправленном), где n — размер сети, а — вероятность сброса ( , которая называется коэффициентом затухания), используемая при вычислении PageRank. Они также представляют более быстрый алгоритм, который принимает раунды в ненаправленных графах. В обоих алгоритмах каждый узел обрабатывает и отправляет несколько битов за раунд, которые являются полилогарифмическими по n, размеру сети.
Google Toolbar долгое время имела функцию PageRank, которая отображала PageRank посещенной страницы как целое число от 0 (наименее популярный) до 10 (наиболее популярный). Google не раскрывал конкретный метод определения значения PageRank панели инструментов, которое должно было считаться лишь приблизительным указанием ценности веб-сайта. «Toolbar Pagerank» был доступен для проверенных владельцев сайтов через интерфейс Google Webmaster Tools. Однако 15 октября 2009 года сотрудник Google подтвердил, что компания удалила PageRank из своего раздела Webmaster Tools , заявив, что «Мы долго говорили людям, что им не следует так сильно фокусироваться на PageRank. Многие владельцы сайтов, похоже, думают, что это самая важная метрика для отслеживания, что просто не соответствует действительности». [41]
«Toolbar Pagerank» обновлялся очень редко. Последнее обновление было в ноябре 2013 года. В октябре 2014 года Мэтт Каттс объявил, что другого видимого обновления Pagerank не будет. [42] В марте 2016 года Google объявил, что больше не будет поддерживать эту функцию, а базовый API вскоре прекратит работу. [43] 15 апреля 2016 года Google отключил отображение данных PageRank в Google Toolbar, [44] хотя PageRank продолжал использоваться внутри компании для ранжирования контента в результатах поиска. [45]
Страница результатов поисковой системы (SERP) — это фактический результат, возвращаемый поисковой системой в ответ на запрос по ключевому слову. SERP состоит из списка ссылок на веб-страницы с соответствующими текстовыми фрагментами, платными объявлениями, избранными фрагментами и вопросами и ответами. Рейтинг SERP веб-страницы относится к размещению соответствующей ссылки на SERP, где более высокое размещение означает более высокий рейтинг SERP. Рейтинг SERP веб-страницы является функцией не только ее PageRank, но и относительно большого и постоянно корректируемого набора факторов (более 200). [46] [ ненадежный источник? ] Поисковая оптимизация (SEO) направлена на влияние на рейтинг SERP для веб-сайта или набора веб-страниц.
Позиционирование веб-страницы в результатах поиска Google по ключевому слову зависит от релевантности и репутации, также известных как авторитет и популярность. PageRank — это показатель Google, указывающий на его оценку репутации веб-страницы: он не привязан к ключевому слову. Google использует комбинацию авторитета веб-страницы и веб-сайта для определения общего авторитета веб-страницы, конкурирующей за ключевое слово. [47] PageRank домашней страницы веб-сайта — это лучший показатель, который Google предлагает для авторитета веб-сайта. [48]
После введения Google Places в основной органический SERP, на рейтинг компании в Local Business Results, помимо PageRank, повлияло множество других факторов. [49] Когда Google подробно рассказал о причинах снижения PageRank на Q&A #March 2016, они объявили Ссылки и Контент главными факторами ранжирования. Ранее в октябре 2015 года RankBrain был объявлен третьим фактором ранжирования, поэтому первые три фактора были официально подтверждены Google. [50]
Google Directory PageRank был 8-единичным измерением. В отличие от Google Toolbar, который показывает числовое значение PageRank при наведении мыши на зеленую полосу, Google Directory отображал только полосу, а не числовые значения. Google Directory был закрыт 20 июля 2011 года. [51]
Было известно, что PageRank, отображаемый на панели инструментов, можно легко подделать . Перенаправление с одной страницы на другую, либо через ответ HTTP 302 , либо через метатег «Refresh» , приводило к тому, что исходная страница приобретала PageRank целевой страницы. Таким образом, новая страница с PR 0 и без входящих ссылок могла получить PR 10, перенаправляясь на домашнюю страницу Google. Подделку обычно можно обнаружить, выполнив поиск Google по исходному URL; если в результатах отображается URL совершенно другого сайта, последний URL может представлять собой пункт назначения перенаправления.
Для целей поисковой оптимизации некоторые компании предлагают продавать вебмастерам ссылки с высоким PageRank. [52] Поскольку ссылки со страниц с высоким PR считаются более ценными, они, как правило, стоят дороже. Покупка рекламных ссылок на страницах с контентом качественных и релевантных сайтов может быть эффективной и жизнеспособной маркетинговой стратегией для привлечения трафика и повышения популярности ссылок вебмастеров. Однако Google публично предупредил вебмастеров, что если они продают ссылки с целью присвоения PageRank и репутации, их ссылки будут обесценены (игнорируются при расчете PageRank других страниц). Практика купли-продажи [53] является предметом интенсивных споров в сообществе вебмастеров. Google посоветовал вебмастерам использовать значение HTML-атрибута nofollow для платных ссылок. По словам Мэтта Каттса , Google обеспокоен вебмастерами, которые пытаются обмануть систему и тем самым снизить качество и релевантность результатов поиска Google. [52]
В 2019 году Google предложил новый тип тегов, которые не передают PageRank и, таким образом, не имеют ценности для манипуляции ссылками SEO: rel="ugc" как тег для пользовательского контента, такого как комментарии; и тег rel="sponsored" для рекламы или других типов спонсируемого контента. [54]
Несмотря на то, что PageRank стал менее важным для целей SEO, наличие обратных ссылок с более популярных веб-сайтов продолжает поднимать веб-страницу выше в рейтинге поиска. [55]
Более интеллектуальный серфер, который вероятностно переходит со страницы на страницу в зависимости от содержания страниц и терминов запроса, которые ищет серфер. Эта модель основана на зависящей от запроса оценке PageRank страницы, которая, как следует из названия, также является функцией запроса. Когда дан многотермический запрос, серфер выбирает в соответствии с некоторым распределением вероятностей , и использует этот термин для руководства своим поведением на большом количестве шагов. Затем он выбирает другой термин в соответствии с распределением, чтобы определить свое поведение, и так далее. Результирующее распределение по посещенным веб-страницам называется QD-PageRank. [56]
Математика PageRank является полностью общей и применима к любому графу или сети в любой области. Таким образом, PageRank теперь регулярно используется в библиометрии, анализе социальных и информационных сетей, а также для прогнозирования и рекомендации ссылок. Он используется для системного анализа дорожных сетей, а также в биологии, химии, нейробиологии и физике. [57]
PageRank использовался для количественной оценки научного влияния исследователей. Базовые сети цитирования и сотрудничества используются в сочетании с алгоритмом PageRank для того, чтобы разработать систему ранжирования отдельных публикаций, которая распространяется на отдельных авторов. Новый индекс, известный как PageRank-index (Pi), продемонстрировал свою более справедливую эффективность по сравнению с индексом h в контексте многих недостатков, демонстрируемых индексом h. [58]
PageRank также является полезным инструментом для анализа белковых сетей в биологии. [59] [60]
В любой экосистеме модифицированная версия PageRank может использоваться для определения видов, которые необходимы для поддержания здоровья окружающей среды. [61]
Аналогичное новое применение PageRank заключается в ранжировании академических докторских программ на основе их записей о размещении своих выпускников на преподавательских должностях. В терминах PageRank академические отделы связываются друг с другом, нанимая своих преподавателей друг у друга (и у себя). [62]
Недавно была предложена версия PageRank в качестве замены традиционного импакт-фактора Института научной информации (ISI) [ 63] и внедрена в Eigenfactor , а также в SCImago . Вместо того, чтобы просто подсчитывать общее количество ссылок на журнал, «важность» каждой ссылки определяется в стиле PageRank.
В нейронауке было обнаружено , что PageRank нейрона в нейронной сети коррелирует с его относительной частотой активации. [64]
Персонализированный PageRank используется Twitter для представления пользователям других аккаунтов, на которые они, возможно, захотят подписаться. [65]
Продукт поиска по сайту Swiftype создает «PageRank, специфичный для отдельных веб-сайтов», анализируя сигналы важности каждого веб-сайта и расставляя приоритеты контента на основе таких факторов, как количество ссылок с домашней страницы. [66]
Веб-сканер может использовать PageRank как одну из метрик важности, которую он использует для определения того, какой URL посетить во время сканирования сети. Одним из ранних рабочих документов [67] , которые использовались при создании Google, является Efficient crawling through URL ordering [68], в котором обсуждается использование ряда различных метрик важности для определения того, насколько глубоко и какую часть сайта будет сканировать Google. PageRank представлен как одна из метрик важности, хотя есть и другие, такие как количество входящих и исходящих ссылок для URL и расстояние от корневого каталога на сайте до URL.
PageRank также может использоваться как методология для измерения очевидного влияния сообщества, например блогосферы, на весь Интернет. Этот подход использует PageRank для измерения распределения внимания в отражении парадигмы Scale-free network . [ необходима цитата ]
В 2005 году в пилотном исследовании в Пакистане, Structural Deep Democracy, SD2 [69] [70] использовался для выбора лидеров в группе устойчивого сельского хозяйства под названием Contact Youth. SD2 использует PageRank для обработки транзитивных голосов по доверенности с дополнительными ограничениями в виде обязательного назначения не менее двух начальных доверенностей на одного избирателя, и все избиратели являются кандидатами по доверенности. Более сложные варианты могут быть построены поверх SD2, такие как добавление специализированных доверенностей и прямых голосований по конкретным вопросам, но SD2 как базовая зонтичная система требует, чтобы всегда использовались универсальные доверенности.
В спорте алгоритм PageRank использовался для ранжирования результатов: команд Национальной футбольной лиги (НФЛ) в США; [71] отдельных футболистов; [72] и спортсменов Бриллиантовой лиги. [73]
PageRank использовался для ранжирования пространств или улиц с целью прогнозирования количества людей (пешеходов или транспортных средств), которые приходят на отдельные пространства или улицы. [74] [75] В лексической семантике он использовался для устранения неоднозначности смысла слов , [76] семантического сходства , [77] а также для автоматического ранжирования синтаксисов WordNet в зависимости от того, насколько сильно они обладают заданным семантическим свойством, таким как позитивность или негативность. [78]
То, как система дорожного движения изменяет свой режим работы, можно описать переходами между квазистационарными состояниями в корреляционных структурах транспортного потока. PageRank использовался для выявления и исследования доминирующих состояний среди этих квазистационарных состояний в системах дорожного движения. [79]
В начале 2005 года Google внедрил новое значение, « nofollow », [80] для атрибута rel элементов HTML link и anchor, так что разработчики веб-сайтов и блоггеры могут создавать ссылки, которые Google не будет рассматривать для целей PageRank — это ссылки, которые больше не представляют собой «голос» в системе PageRank. Отношение nofollow было добавлено в попытке помочь в борьбе со спамдексингом .
Например, раньше люди могли создавать множество сообщений на доске объявлений со ссылками на свой веб-сайт, чтобы искусственно завышать свой PageRank. С помощью значения nofollow администраторы доски объявлений могут изменять свой код, чтобы автоматически вставлять "rel='nofollow'" во все гиперссылки в сообщениях, тем самым предотвращая влияние этих конкретных сообщений на PageRank. Однако этот метод избегания также имеет различные недостатки, такие как снижение ценности ссылок легитимных комментариев. (См.: Спам в блогах#nofollow )
В попытке вручную контролировать поток PageRank между страницами на сайте многие веб-мастера практикуют то, что известно как PageRank Sculpting [81] — это действие стратегического размещения атрибута nofollow на определенных внутренних ссылках сайта, чтобы направить PageRank на те страницы, которые веб-мастер посчитал наиболее важными. Эта тактика использовалась с момента появления атрибута nofollow, но может больше не быть эффективной, поскольку Google объявил, что блокировка передачи PageRank с помощью nofollow не перенаправляет этот PageRank на другие ссылки. [82]