Cafe de Kerm ~毒味ブログ~

物言いにも、珈琲にも、もれなく毒が混入している可能性が無いこともないです。

Googleの画期的書籍スキャン技術の話

2009-05-04 21:42:14 | Technology

 紙はいつか朽ちるが、電子データは永遠。なんて言う妄想を信じる気にはならないkermountです。みなさんゴールデンウイークはいかがお過ごしでしょうか。私は・・・えーと、企業さんが連休に入っているので、このブログのネタがなくて本当に困っています。いや、自分も仕事していないんですけどね。

 冒頭の一文に戻りますと、紙の本から電子データにうつすという事が本当にベターかどうかというのは状況によると思うんですよね。単純に読むだけならばたぶん紙の方が楽だと思いますし、マスターを汚さずに保存できると言うことならデータでしょう。また、「本気で後世に残るよう保存する」ならば、電子データも微妙だと思います。常にデータを移し替えていくなどのメンテナンスをしていけば良いですが、一般的なメディアよりも紙の方が持つような気がしますしね。
 また、再生機器が残っているかという問題もあります。テキストデータのようなシンプルなものならば、規格が消滅した後でも再生できるかもしれませんが、圧縮音声とか映像の類はデコードできるか微妙。現に、私が所有している大量のデータが闇に葬られました。・・・今更解像度の低いリアルビデオを再生する気にもなりませんが、ここ10年でもこうなのですから、100年後とかどうなっているかは本当に分からないですよね。

 しかしながら、書籍のデータ化によって現代人が受ける恩恵というのは並々ならぬものがあります。

 まず、現有する数の少ない書籍のシェアリングが容易になること。そして、目的の「記述」がある書籍を素早く検索できることです。図書館で例えると、恐ろしくマニアックなことについて・・・えーと、センジュナマコの生態とかが知りたいけれど、どの本に書いてあるか分からないし、どの本に書いてあるか分かっていても貸し出されたまま返ってきていない、なんてことが解決できるのですね。
 さらに、実際に図書館に足を運ばなくても記述がある書籍名を素早く検索できて、かつ、そのままamazonなどで購入ができるようになれば、資料をそろえるのも楽々なんですが・・・

 そのような便利な使い方をするためには、まず書籍をデータ化するところから始めなければいけません。この事業について、Googleが積極的に行っているというのは周知の事実ですが、書籍を傷つけず、しかも素早くスキャンする方法を同社が特許申請していたことが明らかになりました。

Google、画期的書籍スキャン技術で特許を取得していた TechCrunch

この技術は、基本的には、 2台の赤外線カメラでスキャンしようとするページを撮影し、ページ表面の形状を3次元的に把握したうで、OCRソフトウェアをその形状に合わせて調整することによって認識精度を高めようとするものだ。つまり、赤外線カメラからの情報でページの3次元の形状を計算し、それにもとづいて文字の歪み具合を算出し、文字認識ソフトに伝えるわけだ。その結果、ページにいちいちガラス板を載せて平らにする必要がなくなり、スキャニングの大幅な高速化が図れることになった。

 Googleにとっては書籍をデータ化して持っておくことで、関連する広告ページを増え、著作権者にとっては、自分の著作物がユーザーの目にとまる可能性が増え、そして、ユーザーにとっては、目的の書籍を簡単に検索することができる非常に有用な取り組みだと思うのですが・・・、今のところ難航しています。日本の著作権者はデータ化に強いアレルギーを持っているようですね。とはいえ、映像や音楽の権利者に比べれば、ずいぶんとソフトな対応ですので、今後の交渉も期待できそうではあります。

 今もGoogle本社では、続々と書籍のスキャニングが進んでいるところですが、こういう地味だけどいつかやらないといけない仕事を着々とやっていくGoogleという企業について、評価を新たにしたいところです。