memo.xight.org

初代Googleのアルゴリズム解説

初代Googleのアルゴリズム解説

- Summary
PRはページランク.
PR(A)はAというページのページランク.
Tn はページAへのリンク数.
C(A)はAから外へのリンク数.

dは定数で,ここでは0.85とする.
行き止まりのページや,類似したページ郡を考慮するために用いる.



ページランク以外のアルゴリズム要素
1. 地理的情報
IPアドレスで地域をまとめる.
地域が近いページ間は同じ言語圏である可能性が高い.
日本から検索した場合,IPアドレスから日本と推測されたページのランクを情報させておく.

2. ビジュアル要素
文字のサイズ,文字の位置がページの上の方にあれば高評価.

3. キャッシュ
クロール時のページランクが検索結果と乖離しないよう,
クロール時のページをキャッシュしておくことで,
クロール時のページランクを得たページを閲覧することが可能.

- Reference
Stanford University - The Anatomy of a Search Engine
http://infolab.stanford.edu/~backrub/google.html

Google! (初代Google)
http://web.archive.org/web/19981202230410/http://www.google.com/

- via
GIGAZINE - 初代Googleのアルゴリズム解説
http://gigazine.net/index.php?/news/comments/20060411_google/