ある「世捨て人」のたわごと

「歌声列車IN房総半島横断鉄道」の夢を見続けている男・・・ 私の残された時間の使い方など

OCR(光学文字認識)ソフトを使って作製・出版された洋書(修正記事)

2014年08月01日 | 好きな歌

こんにちは。

都合により、2013年11月08日 の記事をこちらに移動しました。

OCR(光学文字認識)ソフトを使って編集された市販本

 洋書(アッシャ・シリーズ Ayesha seriesに分類された書物)を数冊買いました。

中には、OCR 光学文字認識 - wikiというソフトウェアを使って編集された市販本も含まれています。

しかし、OCRを使ってスキャンされた本には、「目次のないもの」や「脱字(脱語)」などが目立つ本があり、困ります。

更に、「不具合のない」資料が欲しいため、無料の電子書籍(E-Book)からも入力しました。

ということは、もともとは、同一の本なのですが、日本語訳の本、英語の本、そして電子書籍の資料を入手しました。

それが、昨今、ブログで公開している記事です。それに、フレーズごとに番号を付けて、日本語訳の本、英語の本にも同じ番号を付けることで、比較するのが楽になります

 なぜ、そんなにしてまで、資料を揃える必要があるのだろうか。
それは洋書を、インターネットを通して買っているからです。
「中身を見る」などのサービスがある書籍もあるが、現物を見てから買うのではないので、問題もあります。 

 すなわち、OCR 光学文字認識 - wikiというソフトウェアを使ってスキャンし、(修正しないで)そのまま印刷したものを本として販売しているからです。

理由は本のコストを安く抑えるためということですが、使いにくいです。
日本では、同様の書籍も売っているどうか調べていません。 

スキャンは完全ではなく、多くのミスがあり、意味不明の単語や語句があります。記事が、第1章から次の第2章にまたがっているものもあります。

そこで「脱字」などがほとんどない、無料の電子書籍(E-Book)を利用しました。

別な問題すが、ネットで買った市販本と電子書籍とは、底本としているバージョンが違うこともあります。

今回はこの本を買いました。

Ayesha,the Return of She
邦訳名・・女王の復活
『女王の復活』(Ayesha The Return of She ,1905)
創元推理文庫、大久保康雄訳

 プロジェクト・グーテンベルグ公開のテキスト(英語):
Ayesha: The Return of She 

http://www.gutenberg.org/files/5228/5228-h/5228-h.htm

 

 

印刷ミスの多いのに驚きです。

 Ayesha, the Return of She

              ISBN 978-1-151-90785-1

書名:Ayesha,the Return of She

ペーパーバック: 198ページ
出版社: Generl Books (2010/1/3) 
http://www.general-books.net/
言語: 英語, 英語, 英語
ISBN-10: 1151907855
ISBN-13: 978-1151907851
発売日: 2010/1/3


同書の翻訳書
女王の復活 (創元推理文庫 518-4) 

 

 女王の復活 (創元推理文庫 518-4)

 

女王の復活 (創元推理文庫 518-4) [文庫]
文庫: 450ページ
出版社: 東京創元社 (1977/3/18)
ISBN-10: 4488518044
ISBN-13: 978-4488518042
発売日: 1977/3/18


 Ayesha,the Return of She(英語版)の裏表紙

Publication Data:

Title: Ayesha,the Return of She
Author: H. Rider Haggard(henry Rider),1856-1925
Publisher:London Ward,Lock

How we made this book for You
We made this book exclusively for you using patented Print on Demand technology.
First we scanned the original rare book using a robot which automatically flipped and photographed each page.
We automated the typing,proof reading and design of this book using Optical Character Recognition (OCR) softwear on the scanned copy. That let us keep your cost as low as possible.

 本の裏表紙には次の説明があります:

 Publication Data:

 Title: Ayesha,the Return of She
Author: H. Rider Haggard(henry Rider),1856-1925
Publisher:London Ward,Lock

 How we made this book for You
We made this book exclusively for you using patented Print on Demand technology.
First we scanned the original rare book using a robot which automatically flipped and photographed each page.
We automated the typing,proof reading and design of this book using Optical Character Recognition (OCR) softwear on the scanned copy. That let us keep your cost as low as possible.

  要訳

 どのように私たちはこの本を印刷したか

オンデマンド印刷 - wikiの方式で作成されたこと、各ページ毎にロボットで自動的にめくり、スキャンさせた、スキャンしたページをOCRソフトを使って、校正した。原本がひどく古く、擦り切れたものや、色あせた場合、誤植、などが生じる。イラストや脚注などはスキャン不能のため、印刷されていない、等々・・・。

  We understand how annoying typos, missing texts or illustrations, foot notes in the text or an index that does'nt work, can be. That's why we provide a free digital copy of most books exactly as they were originally published.

Simply go to our website (www.general-books.net) to chek avilability. ・・・・

要訳

私たちは、誤植、文字抜けやイラスト、脚注などが利用出来ない箇所もあることを承知している。

その不具合を補うために、出版された原本(底本)をデジタルコピーとして提供するので、こちらのウェブサイトを参ご覧下さい・・・・。
www.general-books.net

そこで、早速やってみた。 

<form class="form-inline" action="scan.cfm">

http://ia700506.us.archive.org/7/items/ayeshareturnofsh00hagguoft/ayeshareturnofsh00hagguoft.pdf

 対象本が、トロント大学の希有蔵書であることを示す刻印付きの原本、全317ページのPDFを読むことができる。

</form>

  このPDFの表紙の裏

AYESHA
The Return of She
By
H. RIDER HAGGARD
AUTHOR OF " SHE "
1TC
" Here ends this history so far as it concerns science
and the outside world. What its end will be as regards
Leo and myself is more than I can guess. But we feel
that it is not reached. . . . Often I sit alone at night,
staring with the eyes of my mind into the blackness of
unborn time, and wondering in what shape and form the
great drama will be finally developed, and where the
scene of its next act will be laid. And when, ultimately,
that final development occurs, as I have no doubt it must
and will occur, in obedience to a fate that never swerves
and a purpose which cannot be altered, what will be the
part played therein by that beautiful Egyptian Amenartas,
the Princess of the royal house of the Pharaohs, for
the love of whom the priest Killikrates broke his vows
to Isis, and, pursued by the vengeance of the outraged
goddess, fled down the coast of Lybia, to meet his doom
at Kor ?
"
She, Silver Library Edition, p. 277.
WARD, LOCK & CO., LIMITED
LONDON AND MELBOURNE
'
Printed by C, Tinting & Co., Ltd., Liverpool, London and Prefect.

  PDFの裏表紙 

BINDING SECT. SEP 25 1974
PLEASE DO NOT REMOVE
CARDS OR SLIPS FROM THIS POCKET
UNIVERSITY OF TORONTO LIBRARY


 

「洞窟の女王」など、アッシャシリーズに分類された書物

アッシャ・シリーズ
Ayesha series
1.She: a History of Adventure  邦訳名・・洞窟の女王
  『洞窟の女王』(She: a History of Adventure ,1887)創元推理文庫、大久保康雄訳

2.Ayesha: The Return of She  邦訳名・・女王の復活.
  『女王の復活』(Ayesha The Return of She ,1905)創元推理文庫、大久保康雄訳
3.She and Allan ・・(1921)邦訳なし
4.Wisdom's Daughter:The Life and Love Story of She-Who-Must-Be-Obeyed
 ・・(1923)邦訳なし

 


  
以下はOCR 光学文字認識 - wikiからの抜粋です。

出典: フリー百科事典『ウィキペディア(Wikipedia)』
 
 光学文字認識(こうがくもじにんしき、: optical character recognition)は、活字の文書の画像(通常イメージスキャナーで取り込まれる)をコンピュータが編集できる形式(文字コードの列)に変換するソフトウェアである。一般にOCRと略記される。OCRは、人工知能マシンビジョンの研究分野として始まった。研究は続けられているが、OCRの中心はその実装と応用に移っている。紙に印刷された文書をデジタイズし、よりコンパクトな形で記録するのに必要とされる。さらに、文字コードに変換することで機械翻訳音声合成の入力にも使えるようになり、テキストマイニングも可能となる。研究分野としては、パターン認識人工知能コンピュータビジョンが対応する。

(鏡やレンズといった光学技術を使った)光学文字認識と(スキャナーとアルゴリズムによる)デジタル文字認識は本来別の領域と考えられていた。光学技術として生き残った部分が非常に少ないため、光学文字認識という言葉は現在ではデジタル文字認識を含むものとみなされている。

初期のシステムは特定の書体を読むための「トレーニング」が必要であった(事前にその書体のサンプルを読ませることを意味する)。現在では、ほとんどの書体を高い識字率で変換することが可能である。いくつかのシステムでは読み込まれた画像からそれとほぼ同じになるようフォーマットされた出力(例えばワードプロセッサのファイルのようなもの)を生成することが可能であり、中には画像などの文書以外の部分が含まれていても正しく認識するものもある。

歴史・・・・ 省略

なお、日本では漢字の読み取りが難しいため、1968年7月1日に郵便番号が導入され、手書きの数字である郵便番号をOCRシステムで読み取ってソートしていた。1998年に郵便番号の7桁化がなされてからはOCRで読み取った際にアメリカのようにバーコード(ただしこちらは可視光では無色なインクを使用)を印刷するようになった。

視覚障害者にとっての重要性・・・・ 省略

OCR技術の状況・・・ 一部省略

ラテン文字の活字文書の正確な認識はほとんど解決済みの問題だが、識字率(文字を正しく認識する確率)は100%ではなく、間違いの許されない状況では人間が結果を確認する必要がある。19世紀および20世紀初頭の新聞を使った研究によると、単純に文字単位で認識する市販のOCRソフトウェアの識字率は71%から98%だった。手書き文字、特に筆記体の手書き文字認識や文字数の多い言語の文字認識ではまだ研究の余地がある。

文字認識の精度はいくつかの測定法で表され、実際に使用した測定法によって精度は大きく左右される。例えば、文脈や辞書を使わずに純粋に文字単位で認識する場合、識字率が99%であっても、単語ベースの誤り率は5%となるかもしれない。

手書き文字認識システムは近年、商用で成功している分野である。この技術はPalm OSなどが動作する携帯情報端末で入力手段として採用された。アップル・ニュートンがこの技術の先駆者である。これらの機器では筆順や速度や線の方向が入力時に分かるので比較的認識が容易である。また、ユーザー側も徐々に認識されやすい文字を書くようにトレーニングされるという面もある。

一方、紙に書かれた手書き文字を認識するソフトウェアには上記の利点が無いため、識字率はいまだ十分とは言えない。きれいに書かれた手書き文字でも識字率は80%から90%であり、1ページにつき数十個の認識不能文字が出現することになる。これは非常に限られた分野でしか実用化できないレベルである。

筆記体文書の認識は研究が盛んであるが、識字率はさらに低い。筆記体の文字認識の識字率を高めるには、文脈や文法の情報を使わなければならない。例えば、辞書の単語を認識するのは、手書き原稿の個々の文字を認識するよりも簡単である。小切手に書かれた数字の列は小さな辞書を使えばいいので識字率を上げることができる。スキャンしている文書の言語の文法に関する知識があれば、単語が名詞なのか動詞なのかを判別することが可能となり識字率を上げることができる。手書き文字の形だけでは正確な認識(一般に98%以上)は不可能といってよい。

楽譜OCR

1970年代、印刷された楽譜を読み取る研究がMITなどの研究所で行われた。その後楽譜の記号を認識する研究が続けられ、商用のソフトウェアは 1991年に "MIDISCAN for Windows" (現:SmartScore英語版) がリリースされた。 なお日本においては1995年楽譜OCRを搭載した楽譜作成ソフトウェアスコアメーカー河合楽器製作所にて製造販売されている。

OCRソフトウェア


コメントを投稿