planetary days,

不惑とか嘘だよ。惑う惑う。ふらふらと。

いきなりPDF for スキャナ

2006年03月22日 | (`・ω・´)
先日購入したソースネクストの「いきなりPDF for スキャナ」だが、使ってみて実に惜しいソフトであることを確認した。
価格が1980円であることを考えると、許容できる範囲ではあるが。

実家で発掘したMZ関係書籍から、ダンプリストをOCRで読み込むことと、本の痛みが進行しているので電子保存をしたいという2点を解決するために、OCR情報つきのPDFで保存しとこうと。こう思った訳ですよ。

で、たまたま横浜ヨドバシで見かけたこのソフトでやってみたのですが。

 識字率は、業界最高水準を謳うだけあって、大変素晴らしい。日本語の文章に関しては、「OCRもここまで来たか」と思えるほどで、流し読みをしてところどころ修正すれば使えるレベル。ニューラルネット使用エンジンののフリーOCRソフトと比較してみたけれど、こちらの方が識字率が良い結果です。
 連続スキャンした画像を、一括OCRの後1つのPDFにまとめてくれます。いや、そういうソフトなんだけど。PDFには不可視でOCR文字列が埋め込まれるので、検索もできます。
× 高い識字率の反面、雑誌などの複雑な段組に関しては、ブロックの認識が全然駄目。一応ブロック分けしているようなのですが、縦横混在ページでは横読みしてしまって怪しい電波を発する事も。
× Canonのスキャナドライバと相性が悪いのか、お行儀が悪いのか(こっちが有力)、スキャン開始を押すと「サーバが使用中です。アプリケーションを切り替えてください」のダイアログが出てしまいます。何度も再試行していると、1~2分後にスキャンを開始します。これじゃ連続スキャンが使えないので、スキャナメーカのダイアログを使用する設定にすると、スキャンダイアログ起動前に同じ現象が起きますが、あとは連続でスキャンしてスキャナダイアログを閉じれば処理が進みました。この点は使い勝手の面でかなり問題アリです。ま、何度もOCRとAcrobatを往復して作業するよりは楽なんですが。
× これは仕方ないかもしれないけれど、16進ダンプリストに関してはもうどうしようもないぐらいの認識率。どーしようもないかね。補助罫線引いてやるともう少しマシになるだろか。
× OCRは完璧でないのに、OCR文字列を埋め込む前に編集できません。しかもAcrobatで修正しようにも不可視なのでほぼ無理。せめて次版ではこのあたりだけは解決して欲しいものです。
orz ソースネクストのサイトでは、現在このソフトが掲載されていません。なるほど、絶版であったか。

というわけで、ダンプリストの認識に関しては、別途フリーツールを捜索中(^^;)
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする