goo blog サービス終了のお知らせ 

SEOは難しい

写真付きで日記や趣味を書くならgooブログ

クローラーの巡回を拒否する指定、希望する指定

2010-10-10 05:40:36 | 日記
クローラーの巡回可否は、robots.txt、メタ・ロボット、.htaccess、等で指定できます。

クローラーは指定がなければ巡回しますので、巡回を希望する場合、特に指定する必要はありません。しかし、何らかの理由、たとえば、テスト用のページのため巡回して欲しくない場合、robots.txt、メタ・ロボット、.htaccess、等で指定することで、巡回を拒否できます。

○トップディレクトリ直下のrobots.txt

┌────────────────────────
│User-agent: *
│Disallow: /test/
│Disallow: /otameshi.html
└────────────────────────

※上記は、/test/ ディレクトリのすべてと /otameshi.html の巡回を拒否する指定です。
※サイトすべての巡回拒否を行う場合は Disallow: / を指定します。
※User-agentは、特定のクローラーの巡回を拒否する場合に、クローラーによって決まっている名称を記入して指定するものです。  GoogleのGooglebotクローラーは「Googlebot」、YahooのYahoo Slurpクローラーは「Slurp」がその名称です。
※robots.txtファイルは、必ずサイトのトップディレクトリに配置する必要があります。

○ページのHEADセクション内に以下を記述(メタ・ロボット)

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

※ページ単位に有効です。
※この方法は、厳密には、「クローラーの巡回を拒否」するものではなく、CONTENT属性で指定するとおり、インデックスされることの拒否(NOINDEX)、リンク先を辿ることの拒否(NOFOLLOW)、です。ただし、これが指定されている場合、巡回は無意味ですので、クローラーはその後の巡回を行わないように制御されます。


***

robots.txtまたはメタ・ロボットの指定は、すべてのクローラーが守ってくれるわけではありません。

大手検索エンジンのクローラーはだいたい問題ないですが、行儀の悪いクローラーもいますので、巡回されたくないページは、他ページからリンクを張らない、そのページに記載されている外部リンクをクリックしない(リンク先で記録され自動でバックリンクを張られることがしばしばあるため)という注意も必要です。

なお、間違いなく巡回を拒否したい場合は、.htaccessによる拒否を行うか、Basic認証やCGIによる認証の対応が必要です。

***

クローラーによる巡回は、JavaScriptを使うアクセス解析ツールでは記録されません。CGIまたはSSIを使うアクセス解析ツールか、ウェブサーバーの生ログの参照で確認できます。


<有用SEOブログ>

名古屋SEO
SEOブログshiraya
BCP DR研究
SEM R
SEO情報
SEO王国
SEO情報の分析


クローラーの巡回を希望する指定

クローラーはrobots.txtまたはメタ・ロボットがなければ巡回しますので、巡回を希望する場合、特に指定する必要はありませんが、参考として巡回希望の指定を以下に記載しておきます。

○トップディレクトリ直下のrobots.txt

┌────────────────────────
│User-agent: *
│Disallow:
└────────────────────────

○ページのHEADセクション内に以下を記述(メタ・ロボット)

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">