вторник, 10 января 2012 г.

PageRank – вчера и сегодня


Совсем недавно, в двадцатых числах января, прошло, возможно, последнее публичное обновление показателя PR (PageRank). Google построил всю свою поисковую империю на этом – теперь уже классическом – алгоритме. В стэнфордских работах основателей компании, Брина и Пейджа, впервые появляется идея применить ссылочное ранжирование для решения задачи определения релевантности документа запросу.

Но в последние годы Google ушел далеко вперед от изначального содержания статьи «PageRank: ранжирование по признаку цитирования – упорядочивание интернета». То же произошло и с ИЦ (индексом цитирования) – примерно аналогичным PR алгоритмом «Яндекса». И хотя термины PR и тИЦ все еще применяются, а числовые значения показателей еще отдаются поисковыми системами, они потеряли определяющее значение. Теперь поисковые системы ранжируют документы по гораздо более сложным формулам, учитывающим тысячи факторов – см. нашу статью о применении в поиске систем машинного обучения («Матрикснет»).


Оптимизатор должен четко представлять, чем были PR и ИЦ (о нем мы поговорим в одном из следующих выпусков) в прошлом, и – что важнее – какую роль они играют сейчас.

История PageRank – вчера…

Стэнфордский университет, 1996 год. Аспиранты Сергей Брин (24 года) и Лоуренс Пейдж (25 лет) работают над проектом BackRub. Вариантов перевода этого слова масса – от «массаж спины» до «обратное напоминание». Система с самого начала была поисковиком, построенным на принципе ссылочного ранжирования, и с самого начала была воплощена «в железе». Сервер стоял в университетской общаге – прямо в комнате Пейджа. К 1998 году BackRub стал прилично выделяться по качеству поиска на фоне аналогичных – даже коммерческих систем, – которые в то время просто искали совпадения с запросом в контенте, но не умели определять наиболее релевантный документ. В том же году была опубликована вторая научная статья на эту тему, в которой авторы рассмотрели архитектуру поисковой системы, к тому времени получившей название Google (не будем углубляться в увлекательные подробности этой истории – они относятся к сфере бизнеса, а не интернет-математики).

Мы предполагаем, что страница А имеет ссылающиеся на нее (то есть цитирующие) страницы T1…Tn. Параметр d – коэффициент затухания, который может принимать значения от 0 до 1. Обычно мы берем его равным 0,85. Более детальное рассмотрение коэффициента d приводится далее в статье. Также С(А) определяется как число исходящих ссылок страницы А. PageRank страницы А рассчитывается так:

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))


«Анатомия крупномасштабной гипертекстовой сетевой поисковой системы», 1998, кафедра «Вычислительная техника», Стэнфордский университет, Стэнфорд, Калифорния.

Векторные операции с матрицей значений позволяют быстро (с точки зрения машинного времени) получать нужные числовые показатели и столь же быстро пересчитывать матрицу целиком после каждого добавления в индекс новой страницы – причем проблема страниц, не имеющих исходящих ссылок, которые могли бы препятствовать обсчету, может легко решаться с помощью одного из специальных методов. Кстати, метод, основанный на эволюции графа, позволяет достаточно точно вычислять PageRank без пересчета всех взаимосвязей между всеми страницами.

Как видите, изначально идея была элементарной. Интересно, что она до сих пор неплохо бы работала, если бы ни один вебмастер не пытался бы манипулировать результатами поисковой выдачи. Поскольку Google с самого начала сделал ставку на отсутствие человеческого фактора в формировании естественной выдачи («никто не может купить более высокий показатель PageRank»), поисковику пришлось создать математические методы, усложнившие PageRank и другие факторы ранжирования, которые, в свою очередь сформировали современное SEO («белое и пушистое»).

Кстати, в той же статье был заложен магистральный вектор, позволивший PageRank (точнее, механизму ранжирования в целом) эволюционировать, сохраняя название, но меняя содержание: PageRank трактовался как вероятность нахождения пользователя-серфера на данной странице при свободном перемещении по ссылкам.

Условный («тулбарный») PR измеряется целыми числами от 0 до 10, причем это «точки» на нелинейной шкале: настоящее значение PageRank изменяется от, например, 0 до 1 гораздо меньше, чем от 3 до 4. Если получить PR 7 можно, хоть и сложно, то более высокие значения практически для обычного сайта практически недостижимы.

Очевидно, что «PR былых времен» тоже достаточно просто поддавался воздействию ушлых вебмастеров.

… и сегодня

Наиболее интересную и полную статью о современном (на 2009 год) состоянии PageRank написал сотрудник поисковика Nigma, довольно надежно скрывшийся под ником Ornitos. Хотя Google теперь уже не особенно охотно раскрывает секреты своей «внутренней кухни», кое-какие подробности просачиваются.

Однако самое важное, что необходимо для понимания нынешнего принципа ранжирования, это ОГРАНИЧЕНИЕ влияния PageRank на позиции сайта в поисковой выдаче. Если в начале эпохи Google этот показатель позволил радикально улучшить качество результатов поиска, то в дальнейшем (как и любой «простой» фактор, поддающийся манипуляциям) стал в гораздо меньшей степени влиять на формирование рейтинга релевантности. Работа на увеличением PR не даст результата, если не уделить внимание остальным принципам оптимизации и критериями качества продвигаемых страниц.

Как нарастить PR?

  1. PageRank рассчитывается для каждой отдельной страницы, поэтому даже внутренние ссылки передают «вес». С помощью внутренней перелинковки можно «перенаправить» PR на самые важные страницы.
  2. Чем более естественны входящая ссылочная масса и динамика ее наращивания, тем больше вероятность, что PR будет рассчитываться по классическому алгоритму (без применения фильтров и прочих схем борьбы с накрутками). Приобретая качественные ссылки со страниц с PR >0, можно наращивать их количество и добиваться прироста показателей собственной страницы.
Но вспомните первую фразу статьи: далеко не факт, что Google в будущем будет обновлять «публичный» показатель тулбарного PR – что вовсе не значит, что PageRank потеряет значение в качестве фактора ранжирования. Сегодня, в 2011 году, мы рекомендуем не гнаться за показателями продвигаемых страниц – лучше сосредоточьтесь на реальных позициях в выдаче.

Комментариев нет:

Отправить комментарий