嵯峨本をOCRで

2020-08-23 00:00:37 | 美術館・博物館・工芸品
「嵯峨本」というものを知っているだろうか。

江戸時代初期に京都で始まった印刷法で、木製の活字を使った活版印刷術だ。そもそも角倉家という富豪が日本の古典文学を世間に流通させようということで、それまでの写本という生産性が低い方法から西洋で始まっていた活版印刷へと熱意を注いだわけだ。

写本とは、元の本を一字一句写すのだから、1→2→4というように増えていく。細菌の増殖法と同じだ。ウイルスは、1→たくさん→もっとたくさんと増殖して体内で一兆個以上に増える。余計な話だが。


ところで、画像は伊勢物語の冒頭だが、筆で書いたように見える。実際には活字は一文字ずつではなく3文字程度ずつ(単語別)束ねられていて組み合わせて使われていた。1ページに同じことばが何回か現れると複数の活字が必要になる。

何文字かつなげた活字といえば戦前は、「天皇陛下」という言葉を活字にするときに「天皇階下」と間違えやすいということで、四文字で一組の活字があったそうだ(戦後でも使われていたかも)。

ところが、実際には江戸時代中期になると、嵯峨本方式は廃れてしまい、木版画方式に戻ってしまった。理由はいろいろとあるのだろうが、活字作りが大変だったのかもしれない。また、活字体という書体がなかったからかもしれない。

そして、印刷の大手であるトッパンが開発した技術が古文書解読OCR。日本各地に残る古文書の多くが解読されないまま眠っているそうだ。それを解読する技術を使うと、とりあえず活字である嵯峨本は解読できるようになったとのことである。

おそらく今後の道のりは、一つは解読できる範囲を木版、そして手書きにまで広げること。もう一つは、現代語訳だろう。どちらも簡単ではないと思う。

そして、気になるのが、日本では絶滅危惧種の古文書解読家。高校の同級生でこの解読をやっている人物がいて、それなりに仕事があるようだ。解読&翻訳OCRが完成すると、失業するかもしれない。それよりこわいのは、自らの過去の仕事が間違えだらけだったことが明るみに出ることかもしれない。