限りなき知の探訪

45年間、『知の探訪』を続けてきた。いま座っている『人類四千年の特等席』からの見晴らしをつづる。

百論簇出:(第38回目)『自家製漢文検索システム』

2010-02-04 00:05:27 | 日記
以前、資治通鑑を読むのを助けるために、漢文の検索システムを作ったと書いた。そのことについて述べたい。

現在、台湾や中国本土のウェブサイトを見ると所謂中国古典の原文がかなりアップロードされている。例えば、資治通鑑・卷046は、下記のURLで原文が入手できる。
http://zh.wikisource.org/zh-hant/資治通鑑/卷046



しかし、こういった文に対して検索するときに困った問題がいくつかある。

問題1:正字体(旧漢字)、異字体
これらのサイトの文字は、全て所謂旧漢字で書かれているため(例:學・学、體・体)検索のための入力文字を全て新漢字から旧漢字に事前に変換しておく必要がある。これがだいたい300文字ある。正しく変換するには、まずどの文字が旧漢字かを知らないといけないし、その旧漢字を正しく知っていないといけない。その旧漢字に類似の問題で、異字体というのもある。たとえば『隣・鄰』はいずれも『となり』であるが、日本では、『隣』しか使わないが中国の場合は、反対にほとんどが『鄰』である。また、『遊・游』(あそぶ)のようにどちらも同程度によく使われる文字もある。

問題2:文字の順序
以前、沂風詠録(きんぷう・えいろく)の名前の由来を説明した文に、『浴乎沂,風乎舞羽,詠而歸』があった。(注:舞羽の『羽』の字は正しい文字ではない。)

この部分は、『沂に浴し、舞羽に風じて、詠じて帰らん』と読むが二箇所の『に』は『乎』で書かれ、『じて』は『而』で書かれる。日本語(書下し文)で覚えていると、この所の字が正しく思い出せない。(かと言って、中国語で覚える、という選択肢は私は勧めない。)こういった状況でも検索できるシステムが我々一般の日本人には必要なのである。

つまり、この場合では、例えば『浴 沂 風 舞 詠 帰』などを入力すると検索がヒットするようにしたいのだ。

問題3:Googleなどでの検索の不備
それでは、Googleなどを使えばよさそうだが、実はGoogleは一つのドキュメント全体をチェックして、検索すべき単語がみつかればヒットする。しかし、我々が欲しいのは、実は一つのドキュメント全体のあちこちにあるというのではなく、せいぜい前後十数語の間にその字・単語があることを想定している。つまり、Googleではヒットする文書が多すぎて実質使い物にならない。

例えば、通鑑聚銘:(第26回目)『班超の度量 -- 讒言した李邑を信任す』では、『烏孫の使者を護送す』という句があるが、この文が資治通鑑のどこにあるかを探そうという場合は、『烏孫 使者 護送』という検索の語句が十数語にあるというのが確実にいえる。従ってそれ以上に散らばってこれらの文字があってもそういった文書は見つかって欲しくないのだ。

これらの点は、普通の日本人がWindows環境(Mac環境でも多分同様)で漢文を検索するとき、一番望む要望であろう。私は自分がユーザーの立場からこれらの要望を盛り込んだ漢文検索システムを自作(C言語)し、冒頭で述べたように、台湾、中国サイトから原文をダウンロードして、この検索システムに組み込んで使っている。

検索の実例として、先ほどの『烏孫の使者を護送す』を検索してみよう。検索の為に入力する単語は『烏孫 使者 護送』、結果は:
== [0] [..資治通鑑] ( h_tugan ) ==
H_TUGAN.JPN:30534 :: 、司馬;其不置將軍而長史特將者爲將兵長史。以徐幹爲軍司馬,別遣衛候李邑護送烏孫使者。邑到于*E6D4,値龜茲
==> [Vol 46, Page 1495 ] [0%]

となる。これは、資治通鑑の巻46、中華書局の本の1495ページの冒頭にある語句であると分かる。一部、『*E6D4』のように Shift-JISで表現できない文字は、もとのBIG5の文字コードで表現している。当然この文字『*E6D4』で検索することも可能だ。

私は、この自作の漢文検索を開放するのに吝かではないので、もし、このシステムを製品にして販売したいソフトウェア会社があれば連絡をお待ち申し上げる。ただ、一点懸念がある。それは、もとの原文の著作権の問題をどうクリアするかであるが、私には解決策が分からない。
連絡先:  asogawa(@)icc.kyoto-u.ac.jp
コメント    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 沂風詠録:(第36回目)『ラ... | トップ | 希羅聚銘:(第19回目)『輝... »
最新の画像もっと見る

コメントを投稿

日記」カテゴリの最新記事