ばばちゃんのおっちゃんの日本語の先生への道

日本語の先生になろうと一念発起いたしました。

その251 imageOCR

2021-12-29 20:06:30 | 6.私の感想・考え

**************************************************************

Shortcut to Japanese conversation

Li tt đến cuc trò chuyn bng tiếng Nht

Jalan pintas ke percakapan Jepang

Shortcut sa pag-uusap sa Hapon

ทางลัดไปยังบทสนทนาภาษาญี่ปุ่น

စကားပြောဂျပန်မှ shortcut

Atalho para conversação japonesa

Acceso directo a la conversación japonesa

Ярлык на японский разговор

Raccourci vers la conversation japonaise

语对话的捷径

일본어 회화의 지름길

Dear foreign visitors、please visit below site.

Shortcut for learning Japanese

 https://nihongokaiwachikamichi.jimdo.com/

Site Map

 https://nihongokaiwachikamichi.jimdo.com/site-map/

*************************************************************

画像のテキスト化 Convert your image into text (in seconds)

 今まで随分探してきましたが、見つからず、しかし、今回、キーワード一つで、いとも簡単に、それも2種類の変換ソフトを見つけ出すことができました。

 私のこのサイトには、外国からのアクセスもありますので、そうして方々にも参考になればと、記事にしました。(ミャンマー語独習に紹介済みですが・・・)

 Abbyy社のFine Readerを持っていますが、代理店に聞きましても、ミャンマー語の開発計画はわからないと言っていました。

 使ってみました。ミャンマー語については、問題なさそうです。以前、タイ語に、Fine Readerを使ってみたことが有りましたが、全然うまく行かなかったので、一度こちらで試してみたいと考えます。

その1 『i2OCR』 https://www.i2ocr.com

その2 『Image to Text Convertor』 https://onlineocrconverter.com/

 Please refer 『その64 OCR Myanmar』.


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

その64 OCR Myanmar

2021-12-29 10:13:25 | 8.ミャンマー語独習

OCR Myanmar
 見つけましたミャンマー語OCR』を・・・・・・・・
「OCR Myanmar」で検索いたしますと、イトも簡単に、2種類の無料OCRソフトが見つかりました。Abbyy社の「Fine Reader」のように、大量に、能率的に処理するという訳には参りませんが、1文字1文字入力するより遥かに、能率的にテキスト化してくれるでしょう。
その1 『i2OCR』 https://www.i2ocr.com   

     
その2 『Image to Text Convertor』 https://onlineocrconverter.com/

                   
 どちらも最初に、言語を選び、資料の種類が画像かURLかを指定し、実際の資料を、指定するかドラグ&ドロップして、実行ボタンをクリックすれば実行してくれます。
 現在進行中の『日⇔緬語辞書』のソースには、ミャンマー語、国際音声記号、日本語が混在していますので、一旦ワードやエクセルに取り込み、必要なところだけ残し、それらを組み合わせ編集するという手続きをとっています。
 また、ネット上の短文を収集したいのですが、大部分テキスト化されていない画像のままなので、どうしたものかと、放置したままになっていますが、これらも、テキスト資料として整理することができます。

 (追記1)言いそびれましたが、ミャンマー語だけでなく、上記ソフトは、他の言語も利用可能です。どうぞ、当たってみてください。パーソナルユースなら、おそらく、これらで十分でしょう。Abbyy社の「Fine Reader」は、数カ国語混在していても、テキスト化してくれますので、そういう利用には便利です。しかし、残念ながら、ミャンマー語にも、発音記号にも対応してくれませんでした。

(追記2)上記OCRを使ってみましたところ、その2の方は、すぐにデイリーの制限にかかってしまい、私のような用途には、向いていないことがわかりました。とはいえ、もう一つの方も、1ページづつしかやってくれませんので、やっぱり時間がかかります。

(追記3)残念ながら変換間違いが多く、それを見つけるのは、素人の私には大変難しいのと、見つけたとしましても修正に結構手間がかかることです。それらは、大体、ソースの辞書の印刷の不鮮明と、付加文字の表現が正規の表現と異なっている部分が大部分です。多少間違いのパターンは読めてきましたが・・・・・。やはり最終的には、ネイティブの力を借りないとだめなようです。どうも、長引きそうです。

(追記4)の変換で『i2OCR』の上記欠点が酷くなりますので、もう一つのソフトでどうなるかやってみました。こちらの方が、変換の結果が、随分使い易いですね。しかし、数ページで、デイリーの制限に、引っかかってしまいます。残念

(追記5) 上記OCRとFinereaderのお陰で、一応、6000語の取込(テキスト化)が終わりました。(2022.2.20)およそ3ヵ月掛かりました。これから大雑把な校正に掛かり、ひと段落付きますと、緬⇒日の編集に掛かります。実は、難読の漢字が随分混じっておりますので、ソフトを使って、若い日本人や、ミャンマーの中習以上の学習者向けにルビを打ったものに仕上げたいと考えます。

 日⇒緬の辞書を持っておりませんので、次に、日⇒緬の逆引き出来るように、PDICの機能を利用して、編集します。その場合、通常の国語辞書のように、見出しはひらがなにし、ミャンマーの初学者が使えるようにしたいと考えます。そして、出来ればもう一つ日本人向けに、一般的な日本語の見出しのものも制作したいと考えます。

(追記6)

Free Online OCRというのを見つけました。(2023.12.27)下記をご参照ください。

『その299 Free Online OCR』

 

 

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

再度、SSD

2021-12-26 16:56:57 | 11.おまけ

再度、SSD

 およそ2年前に『更に高速になったSSD』なんていうのをアップロードしましたが、この2年で、価格もずいぶん安くなっているようです。このあたりの変化はメチャクチャ速いですネ。

 たまたま、メインPCのドライブの使用状況を見てみましたら、残量が余り有りません。500GBを装備したのに、おかしいなと思っていましたら、実は、250GBでしかありませんでした。

 それでは、・・・という事で調べましたら、1TBで、1.3~1.7万円であります。(2年前は、250GBで、1.0万円ぐらいしていました) また、KIOXIAなんていうメーカーがあったりして、てっきりKoreaの『K』かと思って敬遠していましたら、実は、旧東芝メモリーということで、随分情報に、遅れを取っているようです。早速換装したいと考えます。

 値段が張りますが、上記のものより、転送速度が2倍のものも上市しされています。

 もうPCが遅いなんて言う話は、『ナシ』です。一般ユーザーで遅いと感じる人は、PCを買い替えてください。Officeがついていなくても、OneDriveに登録すれば、無料で利用できますので、購入するにしても、安く上げる事ができます。時代が変わりました!!

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

その63 日⇔緬語辞書

2021-12-13 07:28:54 | 8.ミャンマー語独習

日⇔緬語辞書

 今まで、緬日辞書しかないと思っていましたが、しっかり調べましたら、日緬辞書もあるようです。また日本で2万円以上する辞書(見出語約46,300語)も、ローカル製で、日緬、緬日ちゃんと双方有り、5,000チャット程度であるようです。私が手に入れた6000語緬日辞書も双方あるようです。(印刷表示で,2000チャット、修正手書きで,2500チャットとありました)返す返すも、現地で辞書を手に入れるということに気が回らなかったことが悔やまれます。

 ようやく『က』の項目50ページ弱のExcelへの取り込みが終わりました。全525ページありますのでようやく一割弱が済んだということになります。今から、目論んだ仕様で、試作してみようとしています。すなわち、PDICへは、まとめて取り込みますので、どういう取り込み方をすれば、整備作業が少なくて、使い勝手の良いものになるか検討したいのです。

 難読の部類に入る漢字もたくさんありますので、どういうルビの付け方が良いかという問題が有ります。それらは、恐らくノンネイティブの上級者であっても、ネイティブの若い方にとりましても難物だと思います。できれば、学習者の方がそういうことで時間を費やしてほしくないと考えるからです。

 かな変換のソフトが有りました。良くしたもので、うまく設定いたしますと、小学校で習う漢字は、ルビ無しで、それ以上のものはルビを付けてくれるというものになります。これならだいぶ使いやすく成るはずです。ミャンマー人の初級学習者向けには、完全ひらがな見出しの日緬辞書にするつもりです。やはり、同じPDIC上に、国語辞書もあったほうが良いのかな?例えば小学生用程度のものが・・・・・

 国際音声記号表記の発音はやはり、見ていて、カタカナ発音より役に立ちそうな気がいたします。

 ソースの辞書の文字の順番さえも、私がイメージします順番と異るようです。PDIC化しますとスクロールしやすくなりますので、随分検索が容易になると推測します。ただし、今回の辞書は、PDICの仕様の配列になります。(なお、漢字、ひらがな、カタカナは、完全に一致しないと検索してくれませんので、見つからない場合は、それぞれで入力を試してください)

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする