ご機嫌いかがですか。
昨年末から取り組んだことは、音声認識、それも安物のPCその他機材、ソフトを使ってどれくらい
正確に文字化できるのかということでした。
最近キーボードを打つのが面倒というか、指が動かなくなり、できれば楽をしてメールを打ったり、
文章化できたらいいなあと思っていた。
Windows10にデフォルトでついている音声認識ソフトを使ってみたが、短い文章は耐えられるが、
長い文章は無理だね。アナウンサーが普通に話す速度レベルに対しては、全然対応できなかった。
正確さも全然だめだが、速度にもついていけない。
ニュースアナウンスレベルの早さなので、少なくともOSに組み入れてくれるのなら、認識率90%
程度のものにしてほしかった。
しかし、これは無理な話か。
もっと悲惨な現実がある。
私がやりたいのは、会議などのように、不特定多数の人間が、ある程度、話すことにおいて制御
された状態での中で、90%以上の文字化率を達成することである。マイクは1本で、人数は7~
8名程度を考えて、まずソフトを探したが、既にサポート停止で、販売中止のソフトが多く驚いた。
というよりなぜという思い。そんなに文字化ソフトは売れないのかといった思いだ。
ドラゴンスピーチ、アミボイスなど立て続けに販売中止です。windowsで残っているのは、Voice
Rep位なものだ。このVoice repはgoogle chromeの認識エンジンを使ったもので、google ドキュメ
ントの中で無償で公開されている。google chromeでもよいのだが、音声が少しでも途絶えると、
音声取り込み機能がストップし、その都度マイクを起動しなければならず、実用的ではない。何し
ろ2~3時間は連続で文字化を続けたいので、ソフトが止まらないことも重要な条件だ。
結果的にVoice Rep、つまりgoogleの文字化の正確さは群を抜いてすごいことが分かる。ただし、
PCにマイク1本を付けただけではだめだということもわかった。
半径3メーターのサークルの中に8名ほどの人間を配置し、コンデンサマイク1本を真ん中に配置す
るというシチュエーションで文字化を試みた。
マイクはファンタム電源起動で全指向型の6千円程度のものを使ってみた。サウンドカードは、PC
内臓のRealteckをそのままでやってみたところ、普通に話す程度の音圧では、ほとんど認識できな
かった。マイクとPCの間にPreAmpを入れないと駄目なようである。
そこで手持ちのFocusriteのScarlett Soloをオーディオインターフェースにして、これ自体も適度のプ
リアンプの機能は持ち合わせているが、少しゲイン不足があるので、Moukeyというこれもオーディ
オ・インターフェースとしても使えるが、スタンドアローンのプリアンプとしても使えるので便利
なので、これをマイクとScarlettの間に入れてゲイン稼ぐこととした。
この2台の機器は、電源をUSBで賄うことができる。Moukeyの電源はスマホ用のバッテリーから給
電し、Scaretとの干渉を避けた。これでやっと各人間の音声は拾うことが出来る。文字化率は90%
程度ではないかと思う。正確には計算していないが、見ていて面白いほどスムーズに変換しいてく
れる。
やはり、マイク1本では無理がある。無理を承知でやっているので、私としては大成功であると思っ
ている。私一人の音声なら確実にとらえる。同音異義語に対する間違いはやむを得ないが、個人と
して利用するなら、感覚的には100%近い正確さであると思っている。
eMeet Lunaなどネット会議用のマイク・スピーカー内蔵のものなどでも試みたが、やはりゲイン不
足である。音圧が小さい音をいくらアンプで増幅してもノイズも大きくなるので、面倒なものである。
さて、少しづつメールの作成に使い始めている。ニュース番組のアナウンサーの音声の文字化にも
使っている。音楽がBGMとして流れる場合が多く、BGMがあると不正確になる。
当初の目的のように、整然とした話し合いの場における各人のお話を、即座に文字化することを更に
検討し正確さを追求したい。
googleはセキュリティ上に問題があると聴いているが、漏れたところで大したことはないので、しか
も選択肢がない以上仕方がないというほかはありません。
もう少し頑張ってみます。
とりあえず、今、興味がある話を書いて見ました。
昨年末から取り組んだことは、音声認識、それも安物のPCその他機材、ソフトを使ってどれくらい
正確に文字化できるのかということでした。
最近キーボードを打つのが面倒というか、指が動かなくなり、できれば楽をしてメールを打ったり、
文章化できたらいいなあと思っていた。
Windows10にデフォルトでついている音声認識ソフトを使ってみたが、短い文章は耐えられるが、
長い文章は無理だね。アナウンサーが普通に話す速度レベルに対しては、全然対応できなかった。
正確さも全然だめだが、速度にもついていけない。
ニュースアナウンスレベルの早さなので、少なくともOSに組み入れてくれるのなら、認識率90%
程度のものにしてほしかった。
しかし、これは無理な話か。
もっと悲惨な現実がある。
私がやりたいのは、会議などのように、不特定多数の人間が、ある程度、話すことにおいて制御
された状態での中で、90%以上の文字化率を達成することである。マイクは1本で、人数は7~
8名程度を考えて、まずソフトを探したが、既にサポート停止で、販売中止のソフトが多く驚いた。
というよりなぜという思い。そんなに文字化ソフトは売れないのかといった思いだ。
ドラゴンスピーチ、アミボイスなど立て続けに販売中止です。windowsで残っているのは、Voice
Rep位なものだ。このVoice repはgoogle chromeの認識エンジンを使ったもので、google ドキュメ
ントの中で無償で公開されている。google chromeでもよいのだが、音声が少しでも途絶えると、
音声取り込み機能がストップし、その都度マイクを起動しなければならず、実用的ではない。何し
ろ2~3時間は連続で文字化を続けたいので、ソフトが止まらないことも重要な条件だ。
結果的にVoice Rep、つまりgoogleの文字化の正確さは群を抜いてすごいことが分かる。ただし、
PCにマイク1本を付けただけではだめだということもわかった。
半径3メーターのサークルの中に8名ほどの人間を配置し、コンデンサマイク1本を真ん中に配置す
るというシチュエーションで文字化を試みた。
マイクはファンタム電源起動で全指向型の6千円程度のものを使ってみた。サウンドカードは、PC
内臓のRealteckをそのままでやってみたところ、普通に話す程度の音圧では、ほとんど認識できな
かった。マイクとPCの間にPreAmpを入れないと駄目なようである。
そこで手持ちのFocusriteのScarlett Soloをオーディオインターフェースにして、これ自体も適度のプ
リアンプの機能は持ち合わせているが、少しゲイン不足があるので、Moukeyというこれもオーディ
オ・インターフェースとしても使えるが、スタンドアローンのプリアンプとしても使えるので便利
なので、これをマイクとScarlettの間に入れてゲイン稼ぐこととした。
この2台の機器は、電源をUSBで賄うことができる。Moukeyの電源はスマホ用のバッテリーから給
電し、Scaretとの干渉を避けた。これでやっと各人間の音声は拾うことが出来る。文字化率は90%
程度ではないかと思う。正確には計算していないが、見ていて面白いほどスムーズに変換しいてく
れる。
やはり、マイク1本では無理がある。無理を承知でやっているので、私としては大成功であると思っ
ている。私一人の音声なら確実にとらえる。同音異義語に対する間違いはやむを得ないが、個人と
して利用するなら、感覚的には100%近い正確さであると思っている。
eMeet Lunaなどネット会議用のマイク・スピーカー内蔵のものなどでも試みたが、やはりゲイン不
足である。音圧が小さい音をいくらアンプで増幅してもノイズも大きくなるので、面倒なものである。
さて、少しづつメールの作成に使い始めている。ニュース番組のアナウンサーの音声の文字化にも
使っている。音楽がBGMとして流れる場合が多く、BGMがあると不正確になる。
当初の目的のように、整然とした話し合いの場における各人のお話を、即座に文字化することを更に
検討し正確さを追求したい。
googleはセキュリティ上に問題があると聴いているが、漏れたところで大したことはないので、しか
も選択肢がない以上仕方がないというほかはありません。
もう少し頑張ってみます。
とりあえず、今、興味がある話を書いて見ました。