東京都立川市のシステム開発会社 株式会社コンフィック ブログ

お客様の業務効率化や教育環境を整備するシステムを開発・運用しています。

OCR後のテキスト校正

2017年04月17日 23時47分12秒 | データ変換

システム開発,XML処理のエキスパート集団 株式会社コンフィック




株式会社コンフィックのブログにアクセスいただき,誠にありがとうございます。

株式会社コンフィックでは,データ作成・データベース構築の作業を行っております。

紙媒体をスキャンして,OCRにかけて電子データを作成した場合,そのOCRの読み取りミスをどれだけ効率的に修正(校正)するかが,大量紙媒体からのデータ化時のポイントになります。
OCRの認識辞書をカスタマイズし,その書籍固有のフォントなどを登録し,OCRの認識率を高めるとともに,認識時の文字種の設定を細かく設定することによって正確なデータを作成することへつながります。
特にOCRが苦手な
「へ(ひらがな)」と「ヘ(カタカナ)」
「二(漢数字)」と「ニ(カタカナ)」
「一(漢数字)」と「-(記号)」
などは注意が必要です。
文字種をうまくチェックする必要があります。

さらにテキスト化後に,テキスト内容をチェックする校正支援ツールにかけて,全体をチェックすることも必要です。

株式会社コンフィックでは,大量文書の紙媒体からの電子化経験があります。
コストを抑えてデータ化するノウハウを有しておりますので,大量の電子化,データベース化をご検討されている方は,お気軽に株式会社コンフィックまでご相談ください。


【関連記事】株式会社コンフィックの「校正」をテーマにしたブログ一覧




システム開発・運用に関してのご相談,ご用命は,多くの開発経験がある株式会社コンフィック
e-portfolioeポートフォリオ),クラウドクラスサイトワンドe-Legislationシステム開発データ変換サービス 等
お気軽にご連絡ください。




株式会社コンフィック http://www.conphic.co.jp 代表取締役 齋藤大地
メールでのご連絡はこちらのフォームからお願いします。
迅速に対応いたします。