6000語辞書の仕様
OCRを使ってWordへの取り込みは、1/4ほど済みました。
手順は、とりあえずOCRソフトで、Wordに取り込み、多少整理して、Excelに取り込みます。そして、(数種類のPDIC辞書化しやすいように)Excel上で、分類・整理。ミャンマー文字、発音記号は、OCRの仕様に有りませんので、メチャクチャ。これから、一文字ずつ手動で取り込みます。
ソースの日本語訳語に対してGoogle翻訳、TexTra等でミャンマー語訳をし、同じスペリングのものをPDIC辞書のリストに取り込みます。訳語が見つからない場合は、一文字づつソフトキー入力。制作時間節約のため、ほぼ学習者に必要ない植物、動物の名前は、とりあえず、省きます。(およそ1,300語ほどあるそうです。ただこの6000語辞書は、その点が特徴だそうなので、最終的のどうするか考えてみます。)
ソース辞書を整備していて、私にとっても難しい漢字があります。学習者には恐らく無理でしょうから、彼ら向けの緬日辞書にはルビ付きを、そして、日緬辞書には、ひらがな見出しにしたいと考えます。
また、日緬辞書の語彙数は、多義語があったり、類似語がたくさんあったりしますので、植物名1,300語を省いても、日本語の見出しは、10,000語以上に成るのではないでしょうか。
追記:ミャンマー語のOCRソフトが見つかり、多少、荷が軽くなりましたので、編者の意図に従って、それらを省略しないことにしました。一応、ミャンマー語の取り込みは終わりました(2/5)。これから、発音記号の取り込みに入ります。
最終的には、発音記号付きにしたい。適当なソフトキー入力アプリも見つかりました。この場合も、ソフトキーボードを使って、一文字づつの入力になります。したがいまして、初版は、ひらがな見出しの日麺辞書と発音記号なしで漢字にひらがな付きの緬日辞書。第2版は、日本人向けに、発音記号付き、漢字混じりの見出しの日麺辞書と発音記号付きの緬日辞書を考えています。
試しに少しやってみました。
困りましたね。
悲しいかな、Google翻訳やTexTraは、ソース辞書の見出しと同じスペリングのミャンマー語をほとんど提供してくれないですね。利用できるのは、2~3割程度でしょうか、全く見込み違いでした。また、一文字ずつ入力したミャンマー語にミスがないかGoogle翻訳やTexTraで検証しますが、これも、目論見通り運ばないですね。訳語となかなか一致しません。この作業は、ソース辞書の印刷があまり鮮明でないので、私のミス入力がないかの作業です。これはネイティブに検証してもらわないとだめですね。
なんか、ゴールが随分遠くへ、逃げていってしまったように感じます。目論見よりもさらに長期戦になりそうですし、誰かネイティブの世話にならなければ、誤りの多い辞書になってしまいそうです。