初代Googleのアルゴリズム解説

Summary

PRはページランク．
PR(A)はAというページのページランク．
Tn はページAへのリンク数．
C(A)はAから外へのリンク数．

dは定数で，ここでは0.85とする．
行き止まりのページや，類似したページ郡を考慮するために用いる．

$$PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))$$

ページランク以外のアルゴリズム要素
1. 地理的情報
IPアドレスで地域をまとめる．
地域が近いページ間は同じ言語圏である可能性が高い．
日本から検索した場合，IPアドレスから日本と推測されたページのランクを情報させておく．

2. ビジュアル要素
文字のサイズ，文字の位置がページの上の方にあれば高評価．

3. キャッシュ
クロール時のページランクが検索結果と乖離しないよう，
クロール時のページをキャッシュしておくことで，
クロール時のページランクを得たページを閲覧することが可能．

Reference

Stanford University - The Anatomy of a Search Engine
http://infolab.stanford.edu/~backrub/google.html

Google! (初代Google)
http://web.archive.org/web/19981202230410/http://www.google.com/

via

GIGAZINE - 初代Googleのアルゴリズム解説
http://gigazine.net/index.php?/news/comments/20060411_google/

memo.xight.org

日々のメモ

初代Googleのアルゴリズム解説

Summary

Reference

via