限りなき知の探訪

45年間、『知の探訪』を続けてきた。いま座っている『人類四千年の特等席』からの見晴らしをつづる。

沂風詠録:(第346回目)『資治通鑑の勧め ― 『禁断の中国史』』

2022-07-31 21:47:03 | 日記
最近、妙に私の本『本当に残酷な中国史』(角川新書)のアマゾンでのランキングが上がっているので、おかしいなと感じていた。(ちなみに、私は現在まで、書籍は8冊、Kindle版は7冊出版しているが、簡単なプログラムを組み、ランキングを一挙に取得できるようにしている。)暫くして、友人から「百田尚樹さんの近刊書『禁断の中国史』に麻生川さんの本が参考文献として始めのほうに載せられていますよ」と連絡をもらった。

暫くして、本屋に行く用事があり、ついでに『禁断の中国史』を立ち読みしてみると、確かに参考文献の最初は資治通鑑の本の紹介で『本当に残酷な中国史』の名前が徳田隆氏の『全訳資治通鑑』の次に挙がっている。『禁断の中国史』をぱらぱらと読んだところ、前半部分(第一章から第三章)は私の『本当に残酷な中国史』にも取り上げているような内容だ。出典の多くが資治通鑑であるとのこともあってか「よく似たことを書いているなあ」と感じた。最後に、「あとがき」の部分を読むと、「資治通鑑の日本語訳がないために日本人は中国人を理解できない」という趣旨の文をみつけた。つまり、早く資治通鑑の日本語訳を作って、日本人に読ませるべきだという主張だ。



「日本人は中国および中国人を知るために資治通鑑を読むべき」とは私も全く同感である。『本当に残酷な中国史』の冒頭で次のように述べた。

「『資治通鑑』を読まずして中国は語れない、そして中国人を理解することも不可能である」
これが、足掛け数年かけて資治通鑑という名著を読み終えたあとの私の偽らざる感想であった。


資治通鑑は元来、為政者つまり皇帝や大臣クラスの文人が読むべき書物として編纂されたので、堅苦しい本と思われがちだが、実際に読むと、ヘドがでそうなほど残酷な話も多く載っている。これは別に資治通鑑の編者が創作した話ではなく、元ソースの正史(十七史)にしっかりと書かれているのを、文章を多少いじってカットアンドペーストしただけの話だ。つまり残酷な話は正史を編纂した時の文人が当時の記録から選んで載せたものだ。日本人にとっては、「ありえへん」と仰天する、人食の話や、毒蛇のプール(水獄)などは、中国の歴史家にとってはワンオブゼム、つまり歴史の一コマに過ぎないということだ。

中国と日本の刑罰の大きな差は、公開処刑のありかただ。日本でも確かに、「市中引き回しの上、斬首」というのがあったが、処刑場は町はずれにあった。ところが、中国の場合は、町の真ん中で行う。たとえば、商鞅(商君)や李斯のような大臣経験者のような高官であっても、凶悪犯同様、街中で衆人環視のなか処刑された。

史記によると李斯の最後は極めて酷い刑を科されている。具体的には五刑(黥、劓、刖、宮、死刑)、つまり、処刑されるまでに、酷い拷問のような、鼻切りや足切り、果ては男性器の切り落としが科されたということだ。それだけではすまず、李斯の近親の家族だけでなく、親族(三族)全員が処刑された。
二世の二年七月、李斯に五刑を具(そな)えて、論じ、咸陽市に腰斬す。…而して三族を夷(たいら)げらる」(二世二年七月、具斯五刑論、腰斬咸陽市。…而夷三族)

政変がおこる都度、このような残酷な処刑風景が街中で見られるのが中国では当たり前であった。何も、文化大革命の時だけではなかった。

さて、資治通鑑の記事は残酷な場面ばかりではない。正直なところ、資治通鑑の残酷な場面は1割程度で、普通の記事は6割、つまらない記事は3割ある。しかしわずか1割といっても、全体で1万ページある巨冊なので、残酷描写は1000ページ分もあるので、読み応えはたっぷりあるといっていい。ただ、『残酷な中国史』でも解説したように、過去の記事へフラッシュバックしてくれないので、事件の経緯を思い出すことができないと関連が分からず興味も失せてしまう。その点では、資治通鑑の記事を事件毎にまとめた資治通鑑記事本末の方がストーリーを追うには読みやすいのではないかと想像する。

このように、資治通鑑は大冊であるだけに、読みこなすのはかなり困難だ。それで確かに「日本人は資治通鑑を読むべし」との百田氏の意見には大賛成ではあるが、検索システムの助けを借りないと到底、資治通鑑を読みこなすことはできないであろう。私は以前、資治通鑑を通読するために漢文検索システムは作成したが、これなくしては通読は不可能だったと断言できる。私の漢文検索システムは条件が整えばシステムの内容を公開してもよいと考えているが、著作権やGUIインターフェースなど、公開するとなると実に様々な障害が存在している。妙案があれば、ご提示いただければ大変ありがたい!
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

智嚢聚銘:(第11回目)『中国四千年の策略大全(その 11)』

2022-07-24 10:05:47 | 日記
前回

中国の特産品と言えば「茶」と「絹」で、北方の遊牧民族の特産は馬だといえる。自国にない特産品を交易するのはお互いにとって利益なはずだが、国境での交易管理がまずく、交易が途絶えてしまった。そこで、知恵を出したのが、「智嚢」(知恵袋)といわれた明の政治家、楊一清だ。

 ***************************
 馮夢龍『智嚢』【巻 8 / 338 / 楊一清】(私訳・原文)

チベットには良馬が多くいる。中国茶を輸入して健康飲料としている。昔は蜀の茶でチベット馬を購入していたが、いつの頃からか、その習慣がすたれてしまった。大量の茶の輸出でずる賢い商売人は大いに儲けたが、肝心の馬を得ることができないこともあった。楊文襄はあらためて西域の馬を扱う役所の設置を朝廷に求め、同時に民間人が私的に交易するのを禁止した。それによって政府が中国茶販売の利益を独占することができ、再びチベット馬を数多く集めることができた。

〔馮述評〕
楊一清が以前、陝西巡撫吏の時、平虜と紅古の2ヶ所に城を築いて固原の防御とし、さらに黄河ぞいに城壁を築き、靖虜を守った。安化王の反乱を征伐した時、張永に策を授けて奸宦の劉瑾を葬った。いわゆる「出ては将、入りては相」の器の人物だ。彼の練った計画は尽く成功したので、人は彼を「智嚢」と呼んだ。唐代の名政治家の姚崇になぞらえたのももっともだ。

西番故饒馬、而仰給中国茶飲療疾。祖制以蜀茶易番馬、久而寝弛、茶多闌出、為奸人利、而番馬不時至。楊文襄乃請重行太僕宛馬之官、而厳私通禁、尽籠茶利於官、以報致諸番。番馬大集、而屯牧之政修。

〔馮述評〕

其撫陝西、則創城平虜、紅古二地、以為固原援。築垣瀕河、以捍靖虜。其討安化、則授張永策以誅逆瑾。出将入相、謀無不酬、当時目公為「智嚢」、又比之姚崇、不虚也!
 ***************************

楊一清の政策というのは、現代風にいうと、レアアースの貿易を国家が管理して、輸出量を調整することで、最大の利益を確保した、ということだろう。このように知恵が泉のごとく湧いた楊一清も最後は、政敵に足をすくわれ憤死した。



次は北宋の時代の宰相・丁謂の話。北宋の時代は、文人政治が輝いた時代といってもいいだろう。王朝の創建者の太祖(趙匡胤)や太宗(趙匡義)の文人優遇の政治理念から数多くの名臣が輩出した。それら名臣の言行を、南宋の朱子が『宋名臣言行録』にまとめた。もっともいくら名臣が多いといっても、やはり奸臣はいるもので、次に紹介する丁謂もその一人だ。

 ***************************
 馮夢龍『智嚢』【巻 8 / 346 / 丁謂】(私訳・原文)

宋の時代(祥符年間)、宮中に火事があって宮殿の復旧を丁謂が命ぜられた。復興材料の土をどこから採ってこようかと悩んだが、都の大路を掘り返して大量の土を得た。その跡が大きな溝となったのでそこの近くを流れる汴水から水を曳いてきて運河とし、筏を組んで復興物資の運搬に使った。復興が終わってから、不要となった瓦やがれきなどをその溝に埋め込んでまた元通りの路とした。これによって3つのこと(土の採取、荷物の運搬、ゴミの搬出)がスムーズにいき、経費が大幅に削減できた。

祥符中、禁中火。時丁謂主営復宮室、患取土遠、公乃命鑿通衢取土、不日皆成巨塹、乃決汴水入塹中、引諸道竹木牌筏及船運雑材、尽自塹中入、至公門事畢、卻以拆棄瓦礫灰壌実於塹中、復為街衢、一挙而三役済、計省費以億万計。
 ***************************

私は、丁謂のこのアイデアは非常に素晴らしいと思うが、馮夢龍は次のように否定的な評価を下す。

「丁謂は確かに立派なことを考えたが、これは宰相の為すべきことではない。つまり論語にもいう『つまらない人間はグランドデザインは描くことはできないが、小手先のことなら器用にこなす』類の人だ。」(此公尽有心計、但非相才耳、故曰:「人不可大受、而可小知。」)

丁謂に対して馮夢龍のような否定的な評価がでる背景には、丁謂が王安石の改革派(新法派)に属していた上に、上司の寇準を失脚させたとして、非常に悪い評価が定着しているからである。日本と異なり、一端、評価が下されれば、それを覆すのは至難のわざだ。何代経っても悪人の子孫は悪人とみなされたままだ。本場、中国やそれを承けた朝鮮における儒教の名教というのは、「人のふみ行うべき道を明らかにする教え」とされ、良い教えのように聞こえるが、別の面から見れば断罪した人に対しては冷酷極まりない教えでもあるのだ。こういった白黒をはっきりつけるやり方はとても日本人の琴線には響かない。それゆえ、儒教は心底から日本人の心を捉えることはなかった、といえる。

ちなみに、丁謂のこのアイデアから「一挙而三役済」(日本流には一挙両得)という成句ができた。

続く。。。
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

【座右之銘・133】『不痴不聾、不作家翁』

2022-07-17 09:06:36 | 日記
8世紀の中唐を揺るがした大事件といえば、誰もが「安史の乱」を思い出すであろう。都の長安までもが賊の手に落ち、唐王朝も、もはやこれまでと誰もが絶望に陥った時、郭子儀が、みごと賊を打ち破り皇帝を都に迎えた。皇帝(代宗)はついぞ救国の将軍・郭子儀を名前で呼ばなかった、という美談が伝わる。というのは、中国では「名を呼ぶ」というのは日本語でいう「呼び捨て」を同じニュアンスだ。中国では対等の人同士では字(あざ名)でよび、それ以外では敬意を評して、官位などでよび、決して親からつけてもらった名前は呼ばない。皇帝ともなれば臣下は全て名前を呼ぶのが普通だが、代宗は郭子儀に敬意を評して、決して名前でよぶことはしなかったのだ。

中国の政治界では(今はどうか知らないが)昔は根も葉もない讒言によって流罪になったり、処刑されることもたびたびあった。そういったカオス政界においても郭子儀は無事に生き延びる術(すべ)を身に着けていた。讒言によって流罪が告げられるとすぐさま、何の弁明もせずにその日のうちに直ちに流罪地に向かった。それで、讒言者もそれ以上追及できなかったということだ。

体格も威風堂々としていたようだ。旧唐書・巻120には「郭子儀は身長180cm 近くあり、体つきも、顔つきも立派であった」(子儀長六尺余、体貌秀傑)との評があるが、それを裏付ける話がある。安史の乱では、賊軍であったが、形勢が不利と見るとすぐさま唐王朝に寝返った田承嗣の下に郭子儀が派遣されたことがあった。梟将(きょうしょう)の田承嗣の態度は旧唐書には「傲狠無礼」と書かれているから、誰もを軽蔑していたのであろう。ところが、郭子儀がやってくるのを遠くから眺めていたが、近くにくるとその気高さに我知らず膝をついた。そして「ワシは滅多なことでは人に膝を曲げないが、今、貴公には膝まづき拝礼申しあげる」(茲膝不屈於人若干歳矣、今為公拝)と述べたという。



そのような人格的には非の打ちどころのない郭子儀の息子は親の七光で大きくなったせいであろうか、人間的には未熟なところがあったようだ。代宗の娘、昇平公主を娶ったが、あるとき郭曖が昇平公主と口喧嘩した際に、怒って「お前は父親が天子であるから威張るのか?私の父は天子などなっても仕方ないと天子の位を軽く見たから、天子になっていないだけなのだ!」と言った。このような不遜な言いぐさを聞いて、激怒した公主は早速、馬車を飛ばして父帝に郭曖の言葉を伝えた。代宗は、娘から話を聞くと「なるほど、お前の夫君の言うとおりだ。もし郭子儀が本気で天子になろうとしたら、きっと今ごろは天下は李家のものではなかっただろうな!」となだめた。一方、郭子儀は息子夫婦の喧嘩話を聞くと、息子を監禁してすぐさま宮廷に参上して、代宗に面会して息子の非礼を詫びた。代宗はまあまあ、といって「世間でこういうではないか
 『不痴不聾、不作家翁』(ばかになって、聞かぬふりをしないと、一家をうまく取められない)
若い夫婦の痴話げんかなど気に召さるな!」と笑いとばした。

感情的にしゃべった言葉をいちいち論理的に分析し責任追及することが、さも優秀な国会議員であるかのような光景を国会答弁などでよく目にする。コンプライアンス遵守の大儀名分を振りかざせば、何を言ってもいいとは、小心者的律儀心のなせるわざ。代宗のようにもっと大人の知恵で対処してほしいものだ。
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

智嚢聚銘:(第10回目)『中国四千年の策略大全(その 10)』

2022-07-10 14:07:05 | 日記
前回

中国では古来、洪水、旱魃、蝗害などの自然災害が頻発し、飢饉にみまわれることが多々あった。それで、為政者は常に貧民救済のために穀物の備蓄をしていた。それだけでなく、庶民の福利厚生のために為政者が貧窮者に暖かい手を差し伸べていたことが中国古典にはしばしば見える。たとえば孟子の《梁惠王章句下》には、
「鰥(妻を亡くした老夫)、寡(夫を亡くした老妻)、独(子供がいない老人)、孤(孤児)には文王は誰よりも先に恵を施した」
(老而無妻曰鰥。老而無夫曰寡。老而無子曰独。幼而無父曰孤。此四者、天下之窮民而無告者。文王発政施仁、必先斯四者)
という句がある。

もっとも、中国の政治の常として、文面上からは確かに仁政といえる内容でも実際にどの程度実効を伴ったものであったかは不明だ。皮肉な見方をすれば、貧民救済とは、窮民が自暴自棄になって反乱を起こすのを防止するための安全弁であったとも言えなくもない。しかし、いずれにせよ、為政者には「天下の窮民を救う」というポーズが求められてたのは事実だ。しかるに、明の時代の地方官の中には、それをポーズで終わらせるのではなく、実行した人がいた。

 ***************************
 馮夢龍『智嚢』【巻 8 / 325 / 陳霽岩】(私訳・原文)

陳霽岩が開州の知事であった万暦年間に大洪水が発生した。農民の税金は免除しなかったが、救援米の配給は実施することにした。役所で協議して、極貧者には米を一石支給し、その次に貧困のものには五斗を配給することになった。配給した時に、それぞれに番号札を配り、指定の旗の下に列を作って並ばせ順序良く進むようにしたので、一万人もの被災者がいたが騒ぎは起こらなかった。陳霽岩は米蔵の前の小屋に座って筆を執り、一人一人の名前を書き、服や顔の様子をじっと見つめた。とりわけ極貧者はそのようすを全て記憶した。翌年の春になって、再び極貧者に米を配給することが決まった。役所の下役が名前を書いた帳面を取り出してきて、通告するリストを作ろうとすると陳霽岩は「そういうものは要らない」と言って、記憶を頼りに極貧者全員のリストを作成した。人々はびっくりして神業だと思った。極貧の者は前回にも配給米を受けたが、みすぼらしい姿は全く変わっていなかった。このクラスの人間の生活実態なのだ。

陳霽岩知開州、時万暦己巳、大水、無蠲而有賑、府下有司議、公倡議:極貧谷一石、次貧五斗、務沾実恵。放賑時編号執旗、魚貫而進、雖万人無敢嘩者。公自坐倉門小棚、執筆点名、視其衣服容貌、於極貧者暗記之。庚午春、上司行牒再賑極貧者、書吏稟出示另報、公曰:「不必也!」第出前点名冊中暗記極貧者、径開喚領、郷民咸以為神、蓋前領賑時不暇妝点、尽見真態故也。
 ***************************

この文から分かるのは、立派な官僚になるには抜群の記憶力が必要ということだろうが、記憶力だけでなく、貧民に対する愛情も備わっていたのが、陳霽岩(ちん・せいがん)であった。中国には、昔からこの陳霽岩のように、異常ともいえる記憶力をもっている人がしばしば歴史に現れる。

三国志の巻21《王衛二劉傅伝》に王粲という記憶力抜群の文人の伝がある。ある時、人と一緒に歩いていて、道端に石碑が立っていた。暫くこれを見ていたが、くるりと背を向けてこの文章を初めから暗唱してみせたが、一字の間違いもなかったという。(王粲与人共行、読道辺碑、人問曰:「卿能闇誦乎?」曰:「能。」因使背而誦之、不失一字。)ちなみに、宋の名臣・王安石にもにたような逸話が伝えらえている。



次は、人情味あふれる官僚の話。

 ***************************
 馮夢龍『智嚢』【巻 8 / 328 / 劉渙】(私訳・原文)

河北で凶作になり地震も発生した。それで民は食べ物がなくなった。数ヶ月の命をつなぐために、仕方なく、耕作用の牛を安値で売らざるを得なくなった。この時、劉渙は澶州の知事であったが、役所にある金で売りにでた牛を尽く買い入れた。翌年になって地震も治まったので、人々が戻ってきたが田を耕す牛がいなくなったので牛の価格が通常の十倍にも暴騰した。劉渙は前年に牛を手放した人に元値で売ったので、河北の一帯で澶州だけは人々が生計することが維持できた。

治平間、河北凶荒、継以地震、民無粒食、往往賤売耕牛、以苟歳月。是時劉渙知澶州、尽発公帑之銭以買牛、明年震揺息、逋民帰、無牛可耕、価騰踴十倍、渙以所買牛、依元直売与、故河北一路、唯澶州民不失所。
 ***************************

昔の中国では暴動が発生すると、まっさきに地方役人が逃げ出したと言われる。それは、民衆から一番忌み嫌われているのが地方役人であり、襲撃の対象となるからだ。それほど、官と庶民の間には深い恨みと同時に猜疑心が渦巻いていたということだ。そういった事情を知ると、劉渙のような善政を敷いた官僚は非常にまれであると言える。このような伝を読むと、干天慈雨のような清涼感を得る。

続く。。。
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

軟財就計:(第12回目)『私のソフトウェア道具箱(その12)』

2022-07-03 11:44:49 | 日記
前回

前回 La Grande Encyclopédie のPDFファイルをダウンロードしてそれを簡便にアクセスするために、インデクスファイルを作ったということを説明し、インデックスファイルを作成するプログラム(awk)を紹介したが、今回はその詳細を掘り下げよう。

説明を簡単にするために、以前のブログで、 Priscien という人物を取り上げたが、それを検索するという想定で話を進める。

先ず、 Priscien は巻27にあることは分かるが、何ページであるかを探すには次のようにする。

Archive.orgにアップロードされているデータは著作権切れの書籍の PDF であるが、たいていの場合、OCR化したテキストデータが別にある。サンプルを下図に示す。この右欄にダウンロードするファイルを選択できるが、ここにPDFやtext(html 形式) データがある。


さて、このようにしてダウンロードした text データは形式的には html ファイルであるが、実質はベタのテキストデータで、文字コードはUTF-8 (charset="UTF-8")である。ちなみに、現在、インターネット上のファイルは事実上(de facto) UTF-8であり、JIS あるいは Shift-JISではない。UTF-8は確かに日本語の表現上、問題はあるが、JISの文字コードはガラパゴス化しているので、積極的にUTFに対応することが賢明であると私は思っている。

さて、このUTF-8の文字コードは ascii 文字の範囲では、UTF-8は ascii コードと全く同じであるが、その範囲を超えると、ascii では正しく表示できないので、何らかの処置を講じる必要がある。

ところで、私の常用するプログラム環境は Windows10、プログラム言語は3つ(C言語、awk、WindowsのDosPromptのバッチファイル)である。(この点については次回、詳しくのべよう。)この環境ではUTF-8のデータ表示は問題ないのだが、データ解析をする場合、UTF-8はこの環境では多少扱いにくい。 つまり、ascii コード以外のUTF-8 の文字をどう表現するかが問題だ。

私の解決策は次の通り:

1.UTF-8データは先ず、Shift-JISに変換する。

ascii コード以外の文字は、「&#x....;」 という文字コードに変換する。この変換には rtfconv(RTFコンバータ)というプログラムをインターネットからダウンロードする。これには、GUIとCUIの 2つのプログラムがあるが、私の使うのは CUIの方である。この時、変換できない文字は「 &#x....;」形式で表示するように指示する。例えば:

rtfconv -h -cUTF8 -cJ -mK -mU input.file > output.file

2.これで得られた output.file には「&#x....;」形式のデータが表れてくるが、「&」はプログラム的にはなかなか扱うのが面倒な特殊文字である。(この点はプログラマーなら誰もが一度は経験していることであろう。)それで、「&#x....;」を強制的に「#....;」形式に置換し、以降のデータ解析プログラムは全てこの形式で処理する。(この変換で、極々たまにデータに不具合は出るが、私の経験上、それは数百本のファイルに一回程度の頻度なので、実質的には無視できる。ただ、学術的、商用的にはお勧めできない方法ではある。)

3.逆に、「#....;」形式のデータを正しく表示するには「#....;」形式を元の「&#x....;」に戻す。つまり、「&#x....;」と「#....;」を相互変換することで Shift-JISとUTF-8(および、UTF-16も)を自由に行き来できることになる。

4.もっとも、rtfconv でUTF-8 を Shift-JIS(ascii)に変換すると、ドイツ語のウムラウト(例:ä)やフランス語のアクサン(例:é)、セデーュ(ç)が正しく表示されず、それぞれウムラウトやアクサンのない文字になってしまう。これは一見、不都合のように見えるが、逆に使いがってが非常によくなる。というのはデータ検索するときに、普通の英語配列のキーボードからウムラウトやアクサンを付けた文字を入力するのは、大変厄介だからだ。

こういった準備の下、ダウンロードしたテキストデータを Shift-JIS に変換し、ファイル名を xxx.sjis としておく。このファイルの Priscien (巻27)の部分は次のような表示になっている。
118367行の == 665 == はページ数を示す。

行番号:  コンテンツ
118361: 
118362: PRISCIEN  (Theodorus-Priscianus),  medecin  grec  du 
118363: ive  siecle  ap.  J.-C.,  eleve  de  Vindicianus,  de  l'ecole  empi- 
118364: rique, auteur  d'un  traite  (Rerum  medicarum  libri  /l  ) 
118365: 
118366: 
118367: ==  665  == 
118368: 
118369: 
118370: PRISCIEN  ==  PRISCILLIEN 
118371: 
118372: 
118373: de  mediocre  valeur,  imprime  a  Strasbourg  en  1532  (in-fol.) 
118374: et  dans  la  collection  aldine  des  Medici  antiqui  latini 
118375: (Venise,  1547,  in-fol.). 
118376: 
118377: PRISCIEN,  philosophe  neo-platonicien.  Originaire  de 
118378: Lydie,  il  fut,  comme  Simplicius,  disciple  de  Damascius,  le 
118379: dernier  scolarque  de  l'ecole  d'Athenes.  Avec  Damascius, 
118380: Simplicius,  Enlamius,  Hermias  et  Diogene,  il  se  rendit  en 

これから、PRISCIEN は少なくとも2エントリー(118362行、118377行)あることが分かる。また、665 はページ数を示す。このファイルから前回示したプログラムファイルでンデックスを作る。行頭に大文字の文字列を暫定的に、見出し語と決める。また、== xxx == のように、数字が == で囲まれているのがページ数だと暫定的に決める。

このようにして、作ったのが次のようなインデックスファイルである。下図にその例を示す。

  :27-118207: PRINSUEJOLS.
  :27-118300: PRIOU (Louis),
  :27-118311: PRIPET.
  :27-118345: PRIPIATINE.
  :27-118351: PRISCES.
  :27-118354: PRISCHES.
  :27-118358: PRISCIANA.
  :27-118361: PRISCIEN (Theodorus-Priscianus),
##:27-118366: ==  665  ==
* :27-118369: PRISCIEN  ==  PRISCILLIEN
  :27-118376: PRISCIEN,
  :27-118406: PRISCIEN,
  :27-118442: PRISCILLE (Sainte (V. Aquilas).
  :27-118444: PRISCILLIEN, PRISCILLIANISME, PRISCILL1A-
  :27-118529: PRISCILLIEN

ただ、これらの元になっているテクストデータはOCR解析結果なので、必ずしも正しくないことがある。OCRでは数字の間違いとしては 5 と 6、あるいは 3 と 8 があり、文字では I(アイ)と1(いち)や O(オー)と0(ゼロ)の取り間違いはある。それで、上で表示されたページ数が必ずしも正しくないことがあるので、その前後、数ページ分の情報を余分に追加して表示する。この余分な情報によって正しいページが分かる。

##:27-117854: ==  662  -
**:27-117851: PRINCE  ==  PRINCIPE
##:27-118020: ==  66#00BB;  ==
* :27-118023: PRINCIPE  ==  PRINSEPIA
##:27-118366: ==  665  ==
 ...............
* :27-118369: PRISCIEN  ==  PRISCILLIEN
##:27-118863: -  668  -
* :27-119026: PRISE  ==  PR1SMAT0IDE

シャノンが構築した情報理論によると、伝達情報(データ)に誤った情報があっても、元から余分な情報を付加することで、ある程度なら誤りを訂正することができるという。つまり、OCRデータなどをベースとしてインデックスファイルを作る時には、必ずしも完全に正確なデータを作ろうとせず、目視確認と手動を前提とした運用て、なるべく無駄な作業(例:PDFファイルを何ページも繰ること)を減らすためには、どこまでをプログラムで処理して、どこからを人間が処理するか、という見極めが重要になる。

こういう問題は、完璧なデータとプログラムを提供する義務を負う商用プログラムではありえない。しかし、完璧なデータとプログラムを作成するには多大なコストが掛かる。つまり、今回示したような、 100年前のフランス語の百科事典の検索システムという、超超特殊な用途には、そういう完璧なデータとプログラムは「絶対に市場に出てくることはない」ということだ。この観点から、現在のように、インターネット上にデータが豊富にアップロードされていても、プログラムが組めないと、結局は「宝の山」を「死蔵データの山」として、指をくわえていなければいけない。現在のほとんどの人は(推定、80%?)自分でプログラムを組めないので、インターネット上のデータを十分活用できないでいる。誠に残念なことだと思う。

続く。。。
コメント
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする