おはようございます。旅人宿 会津野 宿主の長谷川洋一です。
昨日は、本とPCとにらめっこ。
私が勝手に言っている人工知能古本屋へ向け、まだ歩き始めたばかり。
まず最初のステップとして、巷に流通している書籍の題名や作者、出版社、値段等々、本にまつわるデータをインターネットから自動的に取得してくる機能の作成を始めました。
ヒトがインターネットにアクセスすると、画面上に情報が帰ってきて見ることができますが、これをロボットで行うことを「クローリング」と言います。
検索エンジンなどのロボットが行っているのがクローリングと思えば、わかりやすいですね。
ロボットがアクセスして集めた画面のような情報のかたまりから、必要な情報を抜き出すのことを「スクレイピング」と言い、情報源となるWebページの作り方を調べ、情報の抜き出しかたを考えます。
必要な情報を抜き出したら、その後の利用を考え、情報をデータベースに保存するまでが、最初のステップ。
情報源としてまず浮かぶのはAmazonです。Amazonのホームページを巡回すれば、巷で売られている書籍のデータはまず揃うと思いますが、Amazonは書籍以外にもさまざまな商品を扱うので、同じように情報収集するロボットが跡を絶たないのが現状。なので、さまざまな制限があります。たった4件の情報を取得する試作品を作ってみたのですが、アクセス制限がかかるのか、2つしか情報が取れない状況に陥ってしまいました。
こりゃダメだ!
なので、次なる方法にチャレンジ。
Webにアクセスしたとき、画面ではなく、ファイルを返してくるサービスがある。それをAPIと言う。
AmazonもさまざまなAPIを用意しているものの、APIで情報を取得するのは1日に200件までという制限がある。本って何百万冊も出版されているだろうから、これでは何年かかることか。。。
制限のないAPIってどこかに無いかなと探すと、google books APIというのがありました。データの著作権がgoogleにあると表示することが条件となっていて、それ以外はあまりしばりがない。
ここまでやって、残念ながら時間切れ。
今日はパン屋さんの営業日なので、明日から試作品に取り組んでみます。
しかし、自動巡回ってスゴイ!
溢れる情報の中から、必要なものを集めてくる優秀な調査担当者を労賃を払わずに雇ったのと同じこと。
雇い主が寝ている間も働かせることになるけど、ロボットが相手ならブラックではない。
まだ人工知能と言えるレベルではないけど、こんなに誰でもが使えるツールが巷に提供されているのに、使わない手はないよね。
今日も素敵な一日を過ごしましょう。
※コメントは、旅人宿会津野Facebookにて承ります。
※ご予約は、旅人宿会津野ホームページにて承ります。