[WWF]へーげる奥田の空談言説

サークル「WWF」主宰・へーげる奥田が適当に告知したり興味の対象について論じたりするウェブログである。

紙書籍のPDF化サービス

2010-06-14 01:08:30 | Weblog
紙の書籍をPDFにするサービスを請け負う会社がいくつか出てきていますが、
どんなものかと思って比較的いらない本を出してみました。

その成果物が今日上がったのですが、まあとりあえずOKかな、という感じです。
ただ問題もいくつかありました。

今回頼んだのは、「文庫本(文字)」「単行本(文字)」「単行本(コミックス)」
です。いずれも文字部分は縦書きで、OCR処理のオプションをつけて依頼しています。
これは、スキャナで誌面を読み取る際にOCR処理も行い、絵として取り込んだ
PDFのページ上に透明のテキスト情報を埋め込むという方式で、うまくいけば
検索もコピ-もできます。まあOCRのテキスト再現率は100%ではありませんが、
昔に比べればずいぶん利口になりました。

で、成果ですが、「文字の文庫本」は縦書き1段組みでしたが、ほとんどまったく
問題はなく、OCRもよくとれていました。
ただ、縦書き2段組の「文字の単行本」は、一部のページで2色になったりグレー
スケールになったりと安定せず、また一部にOCRに失敗している部分がありました。
縦書きなのに横書きで読み取ってしまっているようです。まあ読むだけなら問題ない
ですが。

それから「コミックスの単行本」は、やはり一部のページで2色になったりグレー
スケールになったりしていて、上下逆のページと90度横倒しになっているページが
ありました。どうもOCRの仕様かなにかの関係でこうなったらしいです。どうも
コミックスにおいてはOCRオプションはつける意味が乏しいかもしれません。

ファイル容量は、

「文庫本(文字)」…………6.42メガバイト
「単行本(文字)」…………26.5メガバイト
「単行本(コミックス)」…50.5メガバイト

でした。文庫本はOCRに成功していて、ほとんどすべてのページが2色(一部の図は
グレースケール)だっただけに容量が少なかったものと思われます。
コミックスの絵の解像度はそんなに気にならないレベルでした。

まあ総論として、利用する価値はとりあえず有りと思いました。このくらいの品質
ならなんとか我慢できるし、これから機械の性能や業者のスキルも上がっていくで
しょう。

この手の業者はまだ法令的にグレーということのようですが、私のように読んだ本は
取っておきたいという性癖のために、結果として部屋が狭くて本が買えない者にとって
は救世主です。紙というデバイスはとても優れているものですが、場所を取るのが
難点ですよね。だから、最初に読むときは紙で読み、保存はPDFで行うというのは
ひとつの理想です。業界のためにもなると思うんですけどね。もしこれを禁じれば、
グーグルみたいに、海外の同種業者に全部シゴトを持って行かれるだけです。司法や
業界もよく考えていただきたいですね。

もし違法アップロードが嫌なら、PDFに私の情報を埋め込んでもらっても結構。
私の勤務先で使っているJIS-Q27001のPDF版には毎ページに私の名前が刻印されて
います。それでも牽制効果としては非常に大きいんじゃないですかね。

ちなみに価格は、通常のPDF化で1冊100円、OCRオプションで+100円でした。
90円でやる業者も出てきているようですね。日曜の23時とかまで業務を行っている
ようなのでちょっと心配ですが、がんばってほしいところです。

告知とお知らせ

2010-06-08 00:22:47 | Weblog
まずは告知。

夏のコミックマーケットですが、WWFは

2010/08/15(日)東地区 "N" ブロック 44b 

にて参加確定です。

今回は神山監督・新房監督についていろいろ特集、という案配です。




それからお知らせ。

WWFの重鎮・松本晶氏が本を出しました。


『あるいは脳の内に棲む僕の彼女』




ご興味ある方は読んでみることをお薦めします。ちなみにアフェリエイトとかではないですよ?