システムエンジニア兼フリーフードファイター

システムエンジニア:80%
営業:15%
管理職:5%

Google ウェブマスターツールで robots.txtのテスト

2006-10-05 01:52:48 | メルマガ
▼ なるほど!よくわかる!ホームページ運営 第13号
 
 実はこの「ウェブマスターツール」でGoogleに
 「ここから先は見ないで〜〜っ!」という規制を入れる
 robots.txt というファイルのテストが出来ます。
 
 ■ robots.txt とは
 ■■━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

 
 robots.txt とは Googleをはじめとする検索エンジンのサイトを回ってくる
 ロボット(コンピュータ)に対して
 「ここはOK」「ここはNG」という規制をかけてあげるものです。
 
 ただ、Google、gooなどはこの robots.txt に従うようですが、絶対的な
 ものではなく「自主規制」的なものなので「絶対見られない」というもの
 ではないことを理解してください。
 

 
 ■ 早速 robots.txt を書いてみましょう!
 ■■━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
 
 ------------------------------------------------------------------
 ■ robots.txt の配置場所
 ------------------------------------------------------------------
 
 robots.txt は ホームページのトップページ(index.htmlなど)

 と同じ階層にアップロードして使用します。
 
 ------------------------------------------------------------------
 ■ robots.txt の記述
 ------------------------------------------------------------------
 
 今回は Google ウェブマスターツール を使用して書いていきましょう。
 
 ▼ Google ウェブマスターツール(日本語)

 
 上記ページを開いていただくとログイン画面が現れます。
 このとき、「ウェブマスターツールに入ってしまった!」という方は
 それで結構です。
 GoogleにログインされたままになっていたということですのでOKです。
 
 アカウントを持っている方はそのままログイン処理を行ってください。
 
 持っていない方はバックナンバーにアカウント作成について書いております

 ので参考にして、まずアカウント作成をお願いします。
 
 ▼ なるほど!よくわかる!ホームページ運営 第12号
 
 
 ●ログインできましたら・・・
 
 サイトの一覧が出てきます。

 ここで登録を行っていないかたは
 下記バックナンバーを参考に「サイトの登録」を行ってください。
 
 ▼ なるほど!よくわかる!ホームページ運営 第13号
 
 
 ●サイトを選びます!
 

 登録されているサイトから今回 robots.txt を記述したいサイトを
 選びます。
 
 サイトを選ぶと「概要」という画面が表示されます。
 
 ●左側のサイドメニューから「robots.txt解析」をクリックします!
 
 「キャッシュに保存された robots.txtの分析」という画面が表示されます
 

 ここで robots.txt をすでにアップロードされている方は
 その内容が表示されていると思います。
 
 まだの方は「ステータス」という箇所に赤い字で
 「404 見つかりませんでした」
 と表示されているはずです。
 
 今回はまず、この画面中央にある小窓のような編集可能エリアにてテスト
 をしながら記述したいと思います。

 
 まず、サンプルから
 
 ------------------------------------------------------------------
 ■ robots.txt サンプル
 ------------------------------------------------------------------
 
 −−−−−−−−−↓−−キリトリ−−↓−−−−−−−−−−−−−−


User-agent: *

Disallow: /images/
Disallow: /logs/
Disallow: /cgi-bin/

 −−−−−−−−−↑−−キリトリ−−↑−−−−−−−−−−−−−−
 
 「この robots.txt ファイルをテストして変更をチェック」の下に
 記述されたファイルが存在すればその内容が表示されていますので

 そこから変更します。
 
 上記はあくまでもサンプルです。
 
 この場合は
 
 「User-agentがなにであろうが・・・」
 ・imagesフォルダの中は調べないでね
 ・dataフォルダの中も調べちゃダメよ

 ・もちろんlogsだって中身拾っていかないで!
 ・あ、わかってると思うけど cgi-bin フォルダはもってのほかだから
 
 ということになります。
 
 「 User-agent: * 」というのは
 検索ロボットの種類を指定しています。
 「 * 」というのは「すべて」ということです。
 

 これは ディレクトリ(フォルダ)ごとでなくてもOKで
 
 たとえば

Disallow: /secret.html

 とか

Disallow: /data.txt

 という指定もできます。

 逆に

Disallow: /

 としてしまうと そのサイト すべてが検索対象外になってしまいますので
 ご注意を!!!
 
 それでは実験してみましょう!
 
 すぐ上で「ご注意を!」と言っているくせに「すべて検索対象外!」を

 テストしてみましょう!
 
 「この robots.txt ファイルをテストして変更をチェック」の下にある
 テキストボックスに

User-agent: *
Disallow: /

 とだけ書いて
 

 「この robots.txt ファイルに対して URL をテスト」の下に自サイトの
 URLを記述(そのまま記述されていると思いますのでそのままでOK)して
 一番下にある「テスト」ボタンを押します。
 
 テストなので本当にそうなるわけではありません!!
 気軽に押してみてください。
 
 ●すると・・・
 

 「次のメールでブロック 2: Disallow: / ディレクトリとして
 検出されました。ファイルによっては固有の制限がある可能性があります」
 
 とやばそうなメッセージが現れました。
 
 こんな指定は絶対しないと思いますがこれで
 入ってこれないということが証明されたわけです。
 
 ●それでは ただしく設定しましょう!

 
 先ほどのサンプルの通りなのですが、もうちょっと詳細を記述します。
 適宜修正して使用してください。
 
 −−−−−−−−−↓−−キリトリ−−↓−−−−−−−−−−−−−−

# User-agent
# 検索ロボットの指定をします。
# 例)すべてに対して有効

# User-agent: *
# 例)Googleのみの場合
# User-agent: Googlebot

User-agent: *

# Disallow: /ディレクトリ名 で
# その指定ディレクトリ内を巡回しなくなります。
# Disallow: /*.gif$ という指定により
# GIF画像を検索対象としないという設定も出来ます。

#
# Disallow: / とだけ記述するとすべてが巡回できなくなりますので注意!

Disallow: /images/
Disallow: /logs/
Disallow: /cgi-bin/

 −−−−−−−−−↑−−キリトリ−−↑−−−−−−−−−−−−−−
 
 ● テストしてみよう!

 
 ご自分のサイトに合わせた書き方が出来たらテストしてみましょう!
 
 先ほどと同様
 「この robots.txt ファイルをテストして変更をチェック」の下にある
 テキストボックスに書いた内容を貼り付けます。
 
 「この robots.txt ファイルに対して URL をテスト」の下に自サイトの
 URLを記述します。

 
 このとき、この中に
 http://www.○○.com/ だけでなく実際に規制をかけたディレクトリを
 記述します。
 
 例)※リンクにならないように先頭hは全角にしております。
http://www.○○.com/
http://www.○○.com/images/
http://www.○○.com/logs/

http://www.○○.com/cgi-bin/
 
 そして、一番下にある「テスト」ボタンを押してみましょう!
 
 実際には規制をかけたいのに「許可」と表示されている箇所は記述が
 まちがっていますのでやり直しましょう。
 
 何度かやってみて、納得がいったら
 本番のサーバーにアップロードしてください。

 
 アップロードしてからGoogleにキャッシュされたら次回は
 その内容が表示されるようになります。
 
 ご健闘を祈ります!
 
 ■ robots.txt によって秘密を知られる危険性
 ■■━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
 

 ▼ All About より
ロボットが見なくても人が見るかも… Robots.txtで秘密がバレる!?

 
 上記、記事の通りなのですが、robots.txtに「Googleの検索結果」として
 挙げて欲しくないディレクトリ(フォルダ)を指定したはずなのに
 http://○○.com/robots.txt と直接指定することで
 人間が見ることが出来てしまいます。
 それにより「なんとなく」見て欲しくないところを
 

  見られてしまう!
 
 ということがあるのでご注意ください。
 
 上記の記事にあるとおり、絶対見て欲しくないところは
 認証をかけることを強くおすすめします!----------------------------------------------------------------------
この内容は

私が発行しているメルマガ 「なるほど!よくわかる!ホームページ運営」にて掲載したものです!





毎週木曜日発行のメルマガ

なるほど!よくわかる!ホームページ運営」ご購読希望の方は

↓フォームよりご登録下さい!よろしくお願いいたします。
<form action="http://regist.mag2.com/reader/Magrdop" method="post" style="margin: 0px;">
メルマガ登録・解除ID: 0000199475
なるほど!よくわかる!ホームページ運営!
<label for="op_reg6"><input id="op_reg6" name="op" value="reg" style="vertical-align: middle;" checked="checked" type="radio">登録</label> <label for="op_unreg6"><input id="op_unreg6" name="op" value="unreg" style="vertical-align: middle;" type="radio">解除</label> <input id="email6" size="35" name="rdemail" value="メールアドレスを入力してください" onfocus="this.value=''" type="text"><input name="magid" value="0000199475" type="hidden"><input name="reg" value="hakkou" type="hidden"><input value="送信" type="submit">
バックナンバーpowered byまぐまぐトップページへ
</form>






ホームページ運営コンサルタント さとうたけし
ジャンル:
ウェブログ
キーワード
ウェブマスター アップロード テキストボックス サイドメニュー 検索エンジン
コメント (0) |  トラックバック (0) |  この記事についてブログを書く
Messenger この記事をはてなブックマークに追加 mixiチェック シェア
« 携帯用のURLもパ... | トップ | やはり重要なサイ... »

コメント

コメントはありません。

コメントを投稿

 ※ 
コメント利用規約に同意の上コメント投稿を行ってください。
※文字化け等の原因になりますので、顔文字の利用はお控えください。
下記数字4桁を入力し、投稿ボタンを押してください。この数字を読み取っていただくことで自動化されたプログラムによる投稿でないことを確認させていただいております。
数字4桁

トラックバック

この記事のトラックバック  Ping-URL
  • このブログへのリンクがない記事からのトラックバックは受け取らないよう設定されております。
  • ※ブログ管理者のみ、編集画面で設定の変更が可能です。

あわせて読む