世間ではWebスクレイピングに関する多くの誤解も見られるようになっています。特に多く見られる10の誤解として、以下が挙げられ、説明します。
1. Webスクレイピングは違法だ
「スクレイピングは違法だ」ということもよく耳にしたことがあり、実際のところはどうなんだろう?Webスクレイピングそのものは違法ではなく、データ分析を目的とし、新たに自社のデータベースとして活用する場合は違法とはなりません。10のよくある誤解の中でも、特に大きな誤解を与えるものは、この誤解です。しかし、著作権を侵害したり、スクレイピングを行うWebサイトの規約に違反すると違法とみなされ、法的措置をとられる可能性があります。調査によると、Webスクレイピングによるコンテンツの悪用により、オンライン収益の2%が失われる可能性があります。
Webスクレイピングには、その適用に対処するための明確な法律や用語がありませんが、スクレイピングを行う際に気を付けなければ違法になってしまう場合が3つあります。
- 利用規約に違反する
- サーバに過度の負荷をかける
- 著作権を侵害する
2. WebスクレイピングとWebクローリングは同じだ
WebスクレイピングとWebクローリングは、2つの関連概念です。Webスクレイピングには、ターゲットとされたWebページからの具体的なデータ抽出、たとえば、セールスリスト、物件情報、商品在庫に関するデータの抽出が含まれます。一方的に、WebクローリングはWebサイトをGoogleなどの検索結果に表示させるため、クローラーというbotにサイトを知ってもらうことです。
3. 任意のWebサイトでもスクレイピングできる
多くの場合、ユーザー名、パスワードなどの個人情報はスクレイピングできません。しかしメールアドレス、Facebookの投稿、LinkedInの企業情報などのスクレイピングニーズもたくさんあります。LinkedInのデータをスクレイピングした企業とLinkedInの法的紛争は大きな話題となっています。ですからWebサイトをスクレイピングするする前に、必ずrobots.txtを確認してください。Robots.txtは、Webサイトがスクレイピングできるかどうか、またはWebサイトの所有者が指定したとおりにスクレイピングする方法をクローラー、ボット、スパイダに伝えるテキストファイルです。そのため、Webスクレイピング中にブロックされないようにrobots.txtファイルを理解することが重要です。
4. プログラミング方法を知っておく必要がある
普通には、スクレイピングはプログラミングにより実現するのです。しかし、今では、プログラミングしなくても、同じく機能できるWebスクレイピングツール(データ抽出ツール)がたくさん開発されました。スクレイピングツールは、マーケティング担当者、統計学者、財務コンサルタント、研究者、ジャーナリストなどの非プログラマーにとって非常に便利です。それに、OctoparseはWebスクレイピングテンプレートという機能を提供します。それはFacebook、Twitter、Amazon、eBay、Instagramなどを含む30以上のWebサイトをカバーしています。起動で必要なのはキーワード/ URLなどのパラメータを入力することだけです。必要なデータを抽出するのに効率的で便利です。
5. スクレイピングしたデータは自由に使える
先ほど言った通り、データ分析を目的とし、新たに自社のデータベースとしてスクレイピングしたデータを活用する場合は合法です。しかし、著作権を侵害したり、Webサイトの規約に違反したり、機密情報を収集すると違法とはなります。たとえば、許可なく個人の連絡先情報をスクレイピングし、それを第三者に売却して利益を得ることは違法です。その上、元ソースを提供せずにスクレイピングされたコンテンツをあなた自身のものとして再パッケージ化することも倫理的ではありません。法律に従って、スパム、盗作、またはデータの不正使用は禁止されているので、法律に従うべきです。
6. Webスクレーパーは万能だ
同じWebスクレーパーで同じサイトを2度目にスクレイピングするとき、データを抽出できないことがありますか?それは多くの理由があります。時には、Webサイトはレイアウトや構造が更新される場合もあります。スクレーパーを疑わしいボットとして識別することによって引き起こされることもあります。地理的な場所やマシンへのアクセスが異なるために発生することもあります。この場合、調整を設定する前にWebスクレーパがWebサイトの解析に失敗するのは正常なことです。
7. 速い速度でスクレイピングできる
Webクローラーがいかに速いか、数秒でデータを集めることができるのを表示している広告をよく見えますね。それは良さそうですが、アクセスリクエストがはや過ぎると、Webサーバーが過負荷になり、サーバーがクラッシュする可能性があります。過去に、スクレイピングを行って、サーバーに負荷をかけてしまった、という疑いで逮捕された事例(岡崎市中央図書館事件)があります。Webサイトがスクレイピング可能かどうかわからない場合は、Webスクレイピングサービスプロバイダにお問い合わせください。
8. APIとWebスクレイピングは同じだ
APIは、データリクエストをWebサーバーに送信して対象データを取得するためのチャネルのようなものです。APIはHTTPプロトコルを介してデータをJSON形式で返します。たとえば、Facebook API、Twitter API、Instagram APIなどです。ただし、要求したデータをすべて取得できるわけではありません。Webスクレイピングを使用すると、Webサイトとやり取りできるため、プロセスを視覚化できます。OctoparseにはWebスクレイピングテンプレートがあり、キーワード/ URLなどのパラメータを入力することによってデータ抽出はさらに便利です。
9. Web全体からデータを抽出できる
Webスクレイピングは、ワールドワイドウェブ全体または少なくとも数十万ものWebサイトからデータをスクレイピングするために使用できると多くの人が信じています。これは実際には実現不可能です。異なるWebサイトは同じページ構造に従っていないため、1つのWebスクレーパーがすべてのページをスクレイピングするののは無理です。
10. Webスクレイピングはビジネスでのみ使える
Webスクレイピングはさまざまな分野で広く使用されています。見込み顧客生成、価格監視、ビジネスの市場分析に加えて、学生は、Google scholarから研究を行うこともできます。不動産業者は住宅研究を行い、住宅市場を予測することができます。それに、ブランドを宣伝するには、YoutubeインフルエンサーやTwitterのエバンジェリストを見つけることもできます。あるいは、ニュースメディアとRSSフィードをスクレイピングすることによってニューストピックを集めることも可能です。
いかがでしたか?今回の紹介はスクレイピングを客観的に見つめ直すいい機会になるだろう。
※コメント投稿者のブログIDはブログ作成者のみに通知されます