日々適当

hibitekitou

自炊

mac |2014-09-26
本の自炊の現在のワークフローは

本を裁断→スキャン(JPEG保存)→Acrobatでpdf化→必要に応じてOCR(Acrobat内)

となっております。
さて、ここに、上記フローのうちOCRをかけていないPDFファイルがあります(Mac Fanでして、212ページあります)。ファイルサイズは1.21GB。これにOCRをかましてみましょう。けっこうな時間待たされますが、なんと145MBにまで縮みました。OCRでテキスト認識する際に、画像の傾き調整等の処理を行う関係上、再圧縮をかけているということのようです。



画質としてはちょっと荒れましたが、それにしても容量の低下のインパクトは絶大です(念の為。この処理の結果出力される画像のピクセル数に変化は無いようです)。

というわけで、積極的にOCRをかけていきたい所ですが、一つ問題がありまして、



このようなページがあったとして、これ、下の方の文字列が斜めにレイアウトされています。こーいうページがあった時、時に



こーいう結果が返ってきちゃうことがあるんですね。赤い帯部分を水平と見てしまっているために、ページ全体が傾いてしまっております。
これでは困るわけですよ。OCRをかける前に問題が起こりそうなページを特定しておいて、そのページにはOCRをかけないようにしてやらないといけないわけで、これは大変な手間です。

どうにかならんものですかね。

<追記>
さて、あらためて良く考えてみると、天下のAcrobatのPro版です。このような画像が傾いちゃって困るという事への対処法が用意されていないわけがありません。といいますか、プロ用ツールであるこのソフトで、再圧縮されちゃ困る用途なんて幾らでもあるであろうに、再圧縮をしない(オリジナルのまま保持する)という事が出来ないはずがありません。



テキスト認識のコマンド実行時に開くダイアログの編集ボタンからその設定を選ぶことが出来るようです。「検索可能な画像(非圧縮)」というものっすね。
ただ、この設定をすると、当然ながらファイルサイズは縮みません。

Acrobat Proのファイルメニューにサイズが縮小されたPDFってコマンドがあります。



まさにそのものなんですけど、圧縮率なんかの細かい設定が不能なわけです。ただ効果は絶大で1.5GBのファイルが67MBにまで縮みました。でも画質を見てみますと、んー、ちょっと致命的ですかね。




同じところに最適化されたPDFってコマンドもあります。こっちは非常に細かく設定を詰めることが出来るわけですが、



最適な値ってなんだろう、って気分にはなりますな。ただ、下の「サイズが縮小される場合のみ画像を最適化」のチェックを外しておけば、常に、再圧縮をかけるようなので、ここで設定を探る感じっすね。試しにこのダイアログの設定でやってみたところ、1.5GBオーバーのファイルが140MBまで縮んだうえに、画質低下もそこまでひどいものじゃなかったです。それは「中」の画質でやってみわけで、んじゃ「高」にしたらどうかというと、1.25GBまで縮みます。うーん、この中間を選べるといいんですけど、どうにかなりませんかね?
というわけで、圧縮をJPEGじゃなくてJPEG2000にしてみたり。画質は「高」。これがまぁ時間のかかる処理となります。しかし、待つ価値はあるかもです。ファイルサイズは275MBまで縮み、そして画質は下の通り。




ほぼ、差は分かりません。

この再圧縮処理をバッチをかけてやることが出来るのなら、裏でやっておくとか出来るわけですけど、それはAcrobatで可能なのかなぁ?

ともあれ、新たなワークフローを作れそうな気がしてきましたぞ。
</追記>
コメント ( 2 )|Trackback ( )
  ・