正直、ここまで音声認識が進歩するとは思いもしませんでした。
ずっと前、CNNのニュースで、
アナウンサーが言って2秒位遅れて下に英文字幕が出ていました。
誰かキーボードを叩いているにしてはあまりにも早すぎるので、
音声認識だろうと思っていました。
この頃からアメリカでは盛んに研究されていたものと思います。
先日すごいと思ったのは(CNNではありませんが英語の)
3人の討論番組で1秒位の遅れで字幕が出ますが、
他人の発言を遮って割り込みを入れても、
途中で発言が尻切れトンボになってもその通りの英文字幕が出ました。
個人を特定でき、訛りも捉えた音声認識になっていると思います。
ところでNHKニュースでも字幕が出ますが、
これは音声認識ではなく、予め用意されたもので難聴者向けだと思います。
まさか日本語の音声認識ができるなど、
10年も先の話だろうと思っていましたが、
多言語の翻訳機まで出て、自分の先見力のなさを改めて感じます。