検索エンジンのクローリング回避の方法 〜私なりの抜粋まとめ
・robots.txtを使う。
・ロボット型検索エンジンへの命令を記述したもの。
・この指定は強制的なものではない。なかには検索してしまう検索エンジンもある。
・robots.txt ファイルは、そのサイトのトップに置かなくてはなりません。
○
http://www.xxx.zzz/robots.txt ×
http://www.xxx.zzz/~tohoho/robots.txt ・「すべてのファイル」を検索データベースに登録することを禁止する。
robots.txt
User-agent: *
Disallow: /
これは、すべて(*)のロボットに対して、/ ではじまるファイル(つまりはすべてのファイル)を検索データベースに登録することを禁止するものです。
・特定の検索サイトから特定のディレクトリ以下を検索させないようにするには。
(ex. goo と Google に対してのみ、/himitsu と /cgi-bin の下のファイルを検索させないようにする。)
robots.txt
User-agent: moget
Disallow: /himitsu/
Disallow: /cgi-bin/
User-agent: Googlebot
Disallow: /himitsu/
Disallow: /cgi-bin/
・メタタグを使う。
htmlのヘッダ内に次のように書く。
<meta name="robots" content="noindex,nofollow">
※凡例
index - 検索データベースへの登録を許可します。
noindex - 検索データベースへの登録を禁止します。
follow - このページに含まれるリンクをたぐることを許可します。
nofollow - このページに含まれるリンクをたぐることを禁止します。
●引用したサイト
robots.txt とは?
http://www.tohoho-web.com/wwwxx079.htm