/.jpでコンピューターによる読唇システムは人間による読唇とくらべ、はるかに認識率が高いというのが紹介されていて,へぇーと思いました。
わたしはこういうコミュニケーションの情報認識については,人間ができることはコンピュータでできる可能性はあるけど,人間ができないことはコンピュータにはできないだろう,と思っているので,ちょっと意外な結果です。
例えば,音声認識。声で言葉を伝えますが,人間が簡単にできる言葉の認識を現状コンピュータは人間ほどうまくできません。人間ができるならできる可能性があると思いますが,人間すら聞き分けできない言葉はコンピュータにはできないだろうと思います。それはその音にそれだけの情報が乗ってない場合が多いからです。
音声のコミュニケーションは自分の声を聞きながら発生するので,自分の声が聞こえなくなると正確に発音できません。人間が聞きながら調整をしてるので,人間が聞き分けられないような部分には情報が乗らないことになります。
さて,読唇ですが,顔の表情などは自分で確認しながら作ってるわけではありません。でもコミュニケーションというのは相手からの反応が返って来ますので,その反応を見て,表情を作っていくこともあるでしょう。そうだとすると表情も人間がわからないような差は,あまり情報が乗ってない気もします。
そういう意味でコンピュータが人間より情報をたくさん取れると言うのは意外です。
…と書きましたが,実はちょっと読唇の場合違うな…と思うのは,そもそも読唇は相手に情報を伝えるために口の動きを作ってるのではなく,声を出すために作っているので,コミュニケーションの情報そのものではないことです。ですからしゃべるほうも相手に伝わるように口の形を作ってるわけでもないし,見るほうも,そこから情報を読み取ろうと普段から訓練されているわけでもないでしょう。ということで,まぁ読唇に関しては普通の人の認識よりコンピュータの方が情報をうまく拾うとかはできるかもしれないなとは思いました。でも,耳が聞こえない方で読唇に慣れている方より情報をたくさん認識できるのか?,あといっこく堂の様な高度な腹話術士の口からも情報を取れるのか?というと,どうなんでしょうね?たぶん無理じゃないのかなぁとか思いました。
わたしはこういうコミュニケーションの情報認識については,人間ができることはコンピュータでできる可能性はあるけど,人間ができないことはコンピュータにはできないだろう,と思っているので,ちょっと意外な結果です。
例えば,音声認識。声で言葉を伝えますが,人間が簡単にできる言葉の認識を現状コンピュータは人間ほどうまくできません。人間ができるならできる可能性があると思いますが,人間すら聞き分けできない言葉はコンピュータにはできないだろうと思います。それはその音にそれだけの情報が乗ってない場合が多いからです。
音声のコミュニケーションは自分の声を聞きながら発生するので,自分の声が聞こえなくなると正確に発音できません。人間が聞きながら調整をしてるので,人間が聞き分けられないような部分には情報が乗らないことになります。
さて,読唇ですが,顔の表情などは自分で確認しながら作ってるわけではありません。でもコミュニケーションというのは相手からの反応が返って来ますので,その反応を見て,表情を作っていくこともあるでしょう。そうだとすると表情も人間がわからないような差は,あまり情報が乗ってない気もします。
そういう意味でコンピュータが人間より情報をたくさん取れると言うのは意外です。
…と書きましたが,実はちょっと読唇の場合違うな…と思うのは,そもそも読唇は相手に情報を伝えるために口の動きを作ってるのではなく,声を出すために作っているので,コミュニケーションの情報そのものではないことです。ですからしゃべるほうも相手に伝わるように口の形を作ってるわけでもないし,見るほうも,そこから情報を読み取ろうと普段から訓練されているわけでもないでしょう。ということで,まぁ読唇に関しては普通の人の認識よりコンピュータの方が情報をうまく拾うとかはできるかもしれないなとは思いました。でも,耳が聞こえない方で読唇に慣れている方より情報をたくさん認識できるのか?,あといっこく堂の様な高度な腹話術士の口からも情報を取れるのか?というと,どうなんでしょうね?たぶん無理じゃないのかなぁとか思いました。