害虫屋の雑記帳(ブログ人の保存版)

ブログ人のサービス停止に伴い、gooに過去記事を保管させてもらうことにした。

文字の解読から

2010-01-10 20:49:00 | 日記・エッセイ・コラム

生き物の名前調べは、自分で調べようとすると何かと労力がかかるけど、偉い人に聞けば一瞬で結果が得られるので、楽な方法を選択するのが自然というものだろう。
だが、知の営みの最前線に立っている人から、分かりやすい答えが返ってくるとは限らない。往々にして、ナニを仰っておられるのかちっともわからないことさえある。
それらには、種を記述するということの裏に潜む底知れぬ深淵や、歴代の研究者が遺した絶望的な混乱などについての注釈が含まれていたりもする。
最終的には自分で判断しなさいという感じで、多数の文献コピーを頂くこともあるが、これは勉強嫌いな小学生が楽をしようとして先生のところへ質問にいくと、プリントの山をもらって泣きそうになるというのに似ている。
せっかくの情報なので読んでおこうとは思うのだが、ロシア語などで書かれてる文書は何とかなる気が全くしないので、絵を参照するだけの資料として保存されることになってしまう。

手軽にweb翻訳が利用できるご時勢だ。この頃になってようやく、露語テキストデータから情報を取り出せる可能性を試してみたくなった。
スキャナー画像からキリル文字を取り出すという問題は、秀逸なフリーのOCRソフトをみつけて何とかなった。
Cognitive OpenOCR (Cuneiform) 参考URL:
http://en.openocr.org/
*ロシア語のOCRソフト、英語インターフェースのほうをダウンロードして使用してみた。

キリル文字が並んだワード形式ファイルが、自動で作られたことだけでも感心することしきり。そこから、Google翻訳でロシア語から英語に変換する。
意外に普通な文章が生成されることもあるが、もちろん宇宙からきたナゾの暗号文みたいな文章がほとんどだ。とはいえ、ところどころ意味が分かるようになると、知らない場所にそっと踏み出したような奇妙な高揚感が湧いてくる。Russian_ocr