Google PageRank – теоретические основы и практическое использование


Google PageRankПервыми, кто запатентовал систему учета внешних ссылок стала компания Google. Алгоритм получил название PageRank. В этой главе мы расскажем об этом алгоритме и о том, как он может влиять на ранжирование результатов поиска.

  

PageRank рассчитывается для каждой веб-страницы отдельно, и определяется PageRank’ом (цитируемостью) ссылающихся на нее страниц. Своего рода замкнутый круг.

  

Главная задача заключается в том, чтобы найти критерий, выражающий важность страницы. В случае с PageRank таким критерием была выбрана теоретическая посещаемость страницы.

  

Рассмотрим модель путешествия пользователя по сети путем перехода по ссылкам. Предполагается, что пользователь начинает просмотр сайтов с некоторой случайно выбранной страницы. Затем по ссылкам он переходит на другие ресурсы. При этом есть вероятность того, что посетитель покинет сайт и вновь начнет просмотр документов со случайной страницы (в алгоритме PageRank вероятность такого действия принята 0.15 на каждом шаге). Соответственно, с вероятностью 0.85 он продолжит путешествие, перейдя по одной из доступных на текущей странице ссылок (все ссылки при этом равноправны). Продолжая путешествие до бесконечности, он побывает на популярных страницах много раз, а на малоизвестных - меньше.

  

Таким образом, PageRank веб-страницы определяется как вероятность нахождения пользователя на данной веб-странице; при этом сумма вероятностей по всем веб-страницам сети равна единице, так как пользователь обязательно находится на какой-либо странице.

  

Поскольку оперировать вероятностями не всегда удобно, то после ряда преобразований с PageRank можно работать в виде конкретных чисел (как, например, мы привыкли видеть его в Google ToolBar, где каждая страница имеет PageRank от 0 до 10).

  

Согласно описанной выше модели получаем, что:

  • каждая страница в сети (даже если на нее нет внешних ссылок) изначально имеет ненулевой PageRank (хотя и очень маленький);
  • каждая страница, имеющая исходящие ссылки, передает часть своего PageRank страницам, на которые ссылается. При этом переданный PageRank обратно пропорционален числу ссылок на странице – чем больше ссылок, тем меньший PageRank передается по каждой;
  • PageRank передается не полностью, на каждом шаге происходит затухание (та самая вероятность 15%, когда пользователь начинает просмотр с новой, случайно выбранной, страницы).

Рассмотрим теперь, каким образом PageRank может влиять на ранжирование результатов поиска (говорим «может», так как в чистом виде PageRank уже давно не участвует в алгоритме Google, как это было раньше, но об этом ниже). С влиянием PageRank все обстоит очень просто – после того как поисковая система нашла ряд релевантных документов (используя текстовые критерии), отсортировать их можно согласно PageRank – так как логично будет предположить, что документ, имеющий большее число качественных внешних ссылок, содержит наиболее ценную информацию.

  

Таким образом, алгоритм PageRank "вытесняет" наверх в поиске те документы, которые и без поисковика наиболее популярны.

В настоящее время PageRank не используется непосредственно в алгоритме Google. Это и понятно – ведь PageRank характеризует лишь количество и качество внешних ссылок на сайт, но совершенно не учитывает ссылочный текст и информационное содержимое ссылающихся страниц – а именно этим факторам придется максимальное значение при ранжировании. Предполагается, что для ранжирования Google использует так называемый тематический PageRank (то есть учитывающий только ссылки с тематически связанных страниц), однако детали этого алгоритма известны лишь разработчикам Google.

  

Узнать значение PageRank для любой веб-страницы можно с помощью Google ToolBar, который показывает значение PageRank в диапазоне от 0 до 10. Следует учитывать, что Google ToolBar показывает не точное значение PageRank, а лишь диапазон PageRank, в который попадает сайт, причем номер диапазона (от 0 до 10) определяется по логарифмической шкале.

  

Поясним на примере: каждая страница имеет точное значение PageRank, известное только Google. Для определения нужного диапазона и вывода информации на ToolBar используется логарифмическая шкала (пример показан в таблице)

Реальное значение PR

          1-10                                            

          10-100                                      

          100-1000                                    

          1000-10.000    

Значение ToolBar

1

2

3

  4  

и т.д.

  

Все цифры условны, однако наглядно демонстрируют, что диапазоны PageRank, показываемые в Google ToolBar, не равнозначны друг другу. Например, поднять PageRank c 1 до 2 легко, а с 6 до 7 гораздо сложнее.

  

На практике PageRank используется в основном в двух целях:

  1. Быстрая оценка уровня раскрученности сайта. PageRank не дает точной информации о ссылающихся страницах, но позволяет быстро и просто «прикинуть» уровень развития сайта. Для англоязычных сайтов можно придерживаться следующей градации: PR 4-5 – наиболее типичный PR для большинства сайтов средней раскрученности. PR 6 – очень хорошо раскрученный сайт. PR 7 – величина, практически недостижимая для обычного вебмастера, но иногда встречается. PR 8, 9, 10 – встречаются только у сайтов крупных компаний (Microsoft, Google и т.п.). Знание PageRank можно использовать при обмене ссылками, для того чтобы оценить качество предложенной к обмену страницы и в других подобных ситуациях.
  2. Оценка уровня конкуренции по поисковому запросу. Хотя PageRank и не используется непосредственно в алгоритмах ранжирования, тем не менее позволяет косвенно оценить конкурентность заданного запроса. Например, если в выдаче поисковой системы стоят сайты с PageRank 6-7, то сайт с PageRank 4 имеет очень мало шансов подняться в топ.

Еще одно важное замечание – значения PageRank, показываемые в Google ToolBar пересчитываются достаточно редко (раз в несколько месяцев), поэтому ToolBar показывает в некотором роде устаревшую информацию. То есть сама поисковая система Google учитывает изменения во внешних ссылках гораздо быстрее, чем эти изменения отображаются в Google ToolBar.