Max Rod Craft Blog

Max Satohの工作に関するブログ

最近の検索エンジンの巡回ロボット

2008年08月02日 | ホームページ

最近、わがサイトのWebManagerの訪問ログを見ていると、いわゆる、巡回ロボット、の訪問回数が異常に多くなっている。 巡回ロボットというのは、検索エンジンを提供するプロバイダが放った忍者みたいなもんで、リンクをたどってリンク先の頁を読み、シソーラスかなにかを使って、言葉、の索引を作るわけだな。 ほいでもって、検索エンジンに、言葉、を指定して検索すると、世界中から、その言葉を持つサイトを表示する、というとてつもなくエンドレスな紹介サイトなのよ。(いつか、終わりがくるだろうけど。) 

登録制だといっていた、Yahoo Japanですら、現在は、USのYahooの放つ、crawl.yahoo.net によって節操無く集めた索引を使って検索サービスをしているんだ。
このyahooのロボットが一番性質が悪い。 ものすごく頻繁にくる。 数十秒置き。 同じ頁をその都度持っていく。 ロボットの出来がすこぶる悪い。 そういう制御(頻度や、頁が更新されているかどうか、何分前に同じの取ったとか)、すらやっていない。
よほど、頭の悪いSEが作ったに違いない。

Robot.txtだって? そんなもの守ってる奴なんて居るわけ無いじゃないの。 オレオレ詐欺の世の中だよ! 生き馬の目をくり抜く世の中なんだよ! 今は! そんな決まりで引っ込んでくれるロボットなんて、居る訳ないじゃないか! アホかっかっか!!!

ある意味では、それほど世界にわがサイトをご紹介していただきありがたい、のですが、逆の意味では、わがサイトにある、ありとあらゆる情報を根こそぎ黙って持っていかれる、のには抵抗がある。

行儀の良い巡回ロボットも居るには居るが、ロボット訪問の異常さというのは、数秒置き、あるいは数分置きに、大量の頁をごっそり持っていくのである。 土足で他人の家(ホーム)に上がりこみ、何から何まで持っていく、ドロちゃんのようなのである。

検索エンジンは、世界に1つではないので、yahooだ、googleだ、 msnだ、 gooだ、 so-netだ、 ハッキング目的だ、といった何種類の有象無象のロボットが交錯して訪問してくるのだ。 分かったかロボットSEども!

こりゃ堪らんわ。 みぐるみ剥がされて、丸裸。 怖くて大事なものをサイトに格納もできん。 何が持っていかれて、何が持っていかれないのか、疑心暗鬼になってくる。

そこで、吾がWeb Managerの登場である。 このCGIは、わがサイトへの全てのアクセスを自分で制御する能力を有している。 この際、巡回ロボットには、少し遠慮と言うものを覚えてもらおうと、許可した頁以外には、頁184(イヤヨ)という一切のリンク情報なしの頁を表示して、巡回リンクの輪を、ここでストップさせていただくことにした。 頁にリンクがなければ、それ以上の検索はしない筈だべ?

ホームには、一日百回でも、千回でもアクセスして、カウンターをアップしておくれ!
世界に紹介するための情報は、わがホームにすべて書いてある。 紹介していただくのは、その程度で十分だわ。 それ以上細かいことを知りたければ、ロボットじゃ~無くて、実際に読者が訪問してくれればええんよ。

一般の訪問者には、なんら影響が出ないように、工夫がされていますが、万が一、CGIが
巡回ロボットと間違えて、あなたに 頁184を表示しちまったとしたら、すいませんが、一旦ホームに戻り、リンクをたどって必要な頁を表示してくださいまし。(まあないと思いますがね。うっふっふ、自信) この可能性があるのは、アドレスバーから直接URLを指定するような場合です。でも一般訪問者は大丈夫ですよ。(うっふっふ、自信) ブックマークからのアクセスなどには、なんら影響はございません(えっへっへ、自信)。

このWeb Manager、優れものですから、いたずらアクセスでお困りのサイト様などがございましたら、ご相談ください。 有償でサポートさせていただきます!
今はしがないロッド・メーカーやってますが、Maxは、元はれっきとした某国際企業のSEちゃんです。

Web Managerを使うと、こんなことが防げますよ;
* サイト頁にある電話番号を持っていかれる。→ 後日、妙な電話がかかってくる。 オレオレなんて言ってね。
* サイト頁にあるEメールアドレスを持っていかれる。→ 後日、Viagra,スイス時計、出会い系サイト、などの宣伝メール、SPAMメールが頻繁に届く。
* サイト頁にあるBBS、掲示板情報を持っていかれる。→後日、BBSや掲示板に宣伝用のURLや、HサイトのURLを直接書き込まれる(ロボットによる)。 何度も何度も書き込まれる。
* サイト頁にあるBBS、掲示板情報を持っていかれる。→後日、BBS、掲示板にいたづら書きされる(手書きによる)。
* 無用に頻繁な複数の巡回ロボットによるアクセス。 → プロバイダのサーバーに負担がかかる。 一般訪問者のサイト頁表示速度が遅くなる。
* Robot.txtが効かない。→ どないしても持っていかれる。

防げます。








コメント    この記事についてブログを書く
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 八ヶ岳の岩魚 | トップ | いよいよ秋だな~ »
最新の画像もっと見る

コメントを投稿

ブログ作成者から承認されるまでコメントは反映されません。

ホームページ」カテゴリの最新記事