巣窟日誌

お仕事と研究と私的出来事

OCRの手書きの文字の認識率って?

2007-06-22 11:24:30 | ニュース
昨日(2007年6月21日)の日経新聞の朝刊の第1面に、「全年金記録を再調査 社保庁方針 2億7000万件照合 新規にデータベース構築」という記事があった。


 社会保険庁は公的年金の記録漏れを解消するため、コンピューターシステムにある全ての年金記録二億七千万件の入力ミスを調べ、間違った記録を訂正する方針を固めた。手書き台帳を写したマイクロフィルムの内容を新たに電子データ化し、システム上の全記録とつき合わせてミスを修正する。十年はかかるといわれてきた修正が一年程度で終わる可能性が出てくる。


ほぉ。まずは、「新たにデータベースを作る」といっていることから、「既存のデータベースが使いものにならない」と言っているわけですね。そしてもうひとつ、とっても気になることがある。


 社保庁はこのマイクロフィルムの記録を電子データとして再入力し、新たにデータベースを作る方針だ。その上で新たなデータベースと既存のシステム上の電子記録を照合するソフトを開発。納付期間や氏名、生年月日といった年金の支給漏れにつながる入力ミスを効率的に探しだす。
 例えばマイクロフィルムを電子データ化する際には、光学式文字読み取り装置(OCR)などでフィルム上で手書きの文字を機械的に読み取り、瞬時に電子化する方式を検討する。


手書きの文字用のOCRの認識率はいかほどでしょうか。あらかじめOCR用帳票に読み取りを前提として書かれた文字じゃあないんですよ。しかも、英数字とカタカナだけじゃないんですよ。漢字とひらがなも混在しているんですよ。

下手をすると「OCRで読み取ったもののチェックをかけるぐらいなら、全部最初からテ入力したほうがよっぽど手間がかからない」ぐらいになるような気がするんですが。

本当に1年でできるんですか? 10年超になっちゃうんじゃあ…