Summary
PRはページランク.
PR(A)はAというページのページランク.
Tn はページAへのリンク数.
C(A)はAから外へのリンク数.
dは定数で,ここでは0.85とする.
行き止まりのページや,類似したページ郡を考慮するために用いる.
$$PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))$$
ページランク以外のアルゴリズム要素
1. 地理的情報
IPアドレスで地域をまとめる.
地域が近いページ間は同じ言語圏である可能性が高い.
日本から検索した場合,IPアドレスから日本と推測されたページのランクを情報させておく.
2. ビジュアル要素
文字のサイズ,文字の位置がページの上の方にあれば高評価.
3. キャッシュ
クロール時のページランクが検索結果と乖離しないよう,
クロール時のページをキャッシュしておくことで,
クロール時のページランクを得たページを閲覧することが可能.
Reference
Stanford University - The Anatomy of a Search Engine
http://infolab.stanford.edu/~backrub/google.html
Google! (初代Google)
http://web.archive.org/web/19981202230410/http://www.google.com/
via
GIGAZINE - 初代Googleのアルゴリズム解説
http://gigazine.net/index.php?/news/comments/20060411_google/