memo.xight.org

日々のメモ

初代Googleのアルゴリズム解説

Summary

PRはページランク.
PR(A)はAというページのページランク.
Tn はページAへのリンク数.
C(A)はAから外へのリンク数.

dは定数で,ここでは0.85とする.
行き止まりのページや,類似したページ郡を考慮するために用いる.

$$PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))$$

ページランク以外のアルゴリズム要素
1. 地理的情報
IPアドレスで地域をまとめる.
地域が近いページ間は同じ言語圏である可能性が高い.
日本から検索した場合,IPアドレスから日本と推測されたページのランクを情報させておく.

2. ビジュアル要素
文字のサイズ,文字の位置がページの上の方にあれば高評価.

3. キャッシュ
クロール時のページランクが検索結果と乖離しないよう,
クロール時のページをキャッシュしておくことで,
クロール時のページランクを得たページを閲覧することが可能.

Reference

Stanford University - The Anatomy of a Search Engine
http://infolab.stanford.edu/~backrub/google.html

Google! (初代Google)
http://web.archive.org/web/19981202230410/http://www.google.com/

via

GIGAZINE - 初代Googleのアルゴリズム解説
http://gigazine.net/index.php?/news/comments/20060411_google/