Smily Books Blog 2023年7月更新中

Googleの秘密 K's Production(ソフトマジック)

1.検索サイトの秘密
(1)ディレクトリ型とロボット型
①ディレクトリ型
階層状に手作業で登録したデータベースから検索する。
ジャンル絞込みでしか検索できない。
②ロボット型
プログラム(検索エンジン)がインターネット上から自動巡回して構築したデータベースから検索する。
キーワード検索が可能。

(2)検索エンジン
①スパイダーが情報収集し、インデクサがデータベース化する。
②スパイダー(クローラー)はデータベースに登録されたURLを定期巡回する。
③インデクサはキーワード出現頻度、タグ毎の重み付け考慮してデータベース化する。

(3)検索順位
①テキストマッチ
キーワードが検索ページにあるかどうか
②キーワード出現頻度
キーワードが何個検索ページにあるか
③要素内でのキーワード出現位置
キーワードが(タイトルや見出しなど)目立つようにレイアウトされているかどうか
④リンクポピュラリティ
外部サイトからどれだけ多くリンクされているかどうか

(4)検索エンジン市場シェア
国際的にはGoogle、Yahoo!、MSN、AOL Netfindの順でほぼ四分されている(日本ではGoogle独占状態)

2.Google人気の秘密
(1)Googleのスペック
①16億(30億?)以上のWebページから0.5秒以内に検索結果表示
②ディープクロール(1サイトで1万ページ以上収集する場合あり)
③フレッシュクロール(新聞報道など日変わり情報専用スパイダーで対応)
④1万台以上のサーバを世界9ヶ所のデータセンターに分散配置
⑤サーバ単体は1CPU、RAMが256MB〜1GBのロースペックLinuxサーバ
⑥通常データは毎月更新され、全サーバ更新完了までに数日かかる

(2)Googleロゴ
イベントに合わせてトップページロゴが変わる。
http://groups.google.com/holidaylogos.html

(3)Googleの名前の由来
10の100乗を表す「Googol(ゴーゴル)」から。膨大な情報を組織化する意味を込める。

(4)ページランク重視
利害関係のない第三者によるリンク行為は、そのページの情報価値に対する客観的評価とする。

(5)ページランク評価
①リンク数
②重要度の高いページからのリンク数
(ブックマーク目的のページは重要度低く評価)
③リンク元ページのリンク数

(6)あいまい検索
①「and」検索不要
②ストップワーズ(http、.comなど)の入力不要
③ステミングやワイルドカードは不採用
④大文字小文字区別せず
⑤カタカナ表記ゆれ(ユーザとユーザーなど)に自動対応

(7)Google Dance
①データベース更新期間中にアクセスすると、1回目の検索結果と2回目が異なる場合あり

(8)Googleシステム運用
トランザクション処理なら巨大サーバ、SANの組み合わせだが、データベース運用のため小型サーバ分散方式を採用
②各サーバは22〜40GBクラスIDEドライブ2台でデータミラー化
③専用の負荷分散ソフト導入
④サーバ構成は毎月増殖しているため、導入作業は標準化(LinuxサーバにGoogle共通コード打ち込みするだけ)

(9)Googleフリー検索
Google検索窓を自分のWebページに配置可能
http://www.google.co.jp/intl/ja/searchcode.html

3.Google使いこなしの秘密
(1)最上位サイトのみ検索
「I'm feeling lucky」ボタンで検索

(2)複合語などのフレーズ検索
「”」で囲んで検索

(3)not検索
「-」を付けて検索

(4)or検索 
「OR」で検索(ORは大文字、スペースはなし)

(5)特定ファイル(pdfファイルなど)検索
検索オプションの「ファイル形式」で対応

(6)最新更新情報のみ検索
検索オプションの「ページ最終更新日の選択」で対応

(7)ページタイトル指定で検索
検索オプションの「検索の対象にする箇所」で対応

(8)特定サイト指定
site:ドメイン記号

(9)そのサイトへのリンクサイト検索
link:対象サイトURL

(10)ストップワーズ検索
「+」を付けて検索

(11)fj検索
グループでfj検索可能

4.Google通常検索以外の秘密
(1)Google Compute
空いている時間に自分のPCで計算(英語版ツールバーのみ対応)
http://toolbar.google.com/dc/offerdc.html

(2)Google Viewer
検索結果をスライドショーで確認
http://labs.google.com/gviewer.html

(3)Google WebQuotes
検索結果の信頼性をリンク数で評価
http://labs.google.com/cgi-bin/webquotes/webquotes

(4)Google Sets
5つまでの仲間探し。類似語や関連企業検索可能。
http://labs.google.com/sets

(5)Googlism
人や物の評価
http://www.googlism.com/

(6)Google Zeitgeist
検索キーワードランキングとトレンド分析
http://www.google.co.jp/press/zeitgeist.html

(7)AvaQuestによるGoogle Movie、Google People
映画、有名人評価。現在は利用不可
http://www.avaquest.com/

(8)elgooG
全て左右反対の冗談サイト
http://www.alltooflat.com/geeky/elgoog/

5.Google以外の検索サイトの秘密
(1)AlltheWeb
FTPファイル検索も可能
http://www.alltheweb.com/

(2)Goo
質問投稿、過去の質問アーカイブ参照可能
http://www.goo.ne.jp/