新・私に続きを記させて(くろまっくのブログ)

ハイキングに里山再生、れんちゃんとお父さんの日々。

OCRの呪い

2012年12月14日 | 仕事/ビジネス

帰ろうと思ったら、大雨。雨が小降りになるまで、今日は仕事がらみの話でも。

OCRソフトe-Typistは58カ国語対応。自分では使うのは初めてだけれど、かなり精度が上がったように思う。文字だけならバッチリ。自動レイアウト認識設定で、正答率95%くらいかな? もちろん「加工」を「カロエ」と謎変換するなど、思わぬトラップがあるけど、それはある程度予測つく。活版や手動写植の時代は、こんなこともよくあったんだろうな。

しかし、透明テキストを保存すると、何かがおかしい。

 「国國図四園団困囲固囮……」

と、呪いのような文字が並ぶ。なにこれ? 京極夏彦の魍魎の匣かよ?

認識結果を見ると、画像まで文字として認識してしまうことがあるんだね。写真をバックにしたタイトル文字、色ベタに白抜き文字も認識しない。

謎の呪い文字の正体は、レンガ模様のカラー見本だった。ともかく正方形のテキスタイル見本が大好きで、「国國図四園団困囲固囮……」と嬉しそうに変換してくれる。結局心をこめて手動で作業したということだよ。

しかし電子書籍用にePUBを書き出す機能まで付いてくるのはオトク。小説とか文字もの自炊するなら、おすすめのソフト。PDFの透明テキスト保存でレイアウトも維持できる。


最新の画像もっと見る