テレビ会議・WEB会議について語る人

テレビ会議・WEB会議、及びそのマイクスピーカー等周辺機器についての話題や考えたことを語ります。比較サイトも運営中

「Krisp」をブイキューブが提供。その技術とは。

2019-11-27 22:45:14 | TV会議/WEB会議メーカーの話題

テレビ会議やWEB会議について比較・解説するサイトを運営しています。 

今回の話題はこの記事↓

ブイキューブ、ノイズ軽減の「Krisp」を国内提供--ウェブ会議の音声品質改善に

 krispNet DNNと呼ばれる積層ニューラルネットワークモデルを開発し、3万人2500時間の音声データ、2万種類の騒音データを学習させたサービスで、ノイズキャンセリング機能を持たないヘッドセットやマイクスピーカーを用いても、快適にコミュニケーションを実現できる点が特徴としている。Salesforceやintelへの導入実績があり、米国をはじめとした世界150カ国以上、3万人を超えるユーザーが利用しているという。

つまり、Krispというものは、「音声コミュニケーションに必要な情報以外はキャンセルする」技術と読めます。

こういう技術は定常的なノイズであったり、人間の音声帯域と明らかに周波数帯域が異なるとか、時系列的なパターンが音声と似ても似つかないものをフィルタするものです。似たものとしてSONYなどに代表されるノイズキャンセリングヘッドホンがありますが、あれは環境音をリアルタイムで分析し逆位相の音を当てて消し込むものだったと思うで、似て非なるものです。

この技術はWEB会議・テレビ会議で邪魔となるキーボード打鍵音や外部のノイズに対しては大きな効力を発揮することでしょう。

しかし、「他人の音声」の判別は困難です。
つまりシェアオフィス・コワーキングスペースといった他人が入り混じる空間での部外者の声を判断し減衰させるのは技術的に難しいと思います。
もしかして「積層ニューラルネットワークモデル」というものが、日本語の文脈や「間」の傾向まで学習した上で、統計的にノイズと判定できるような入力はキャンセルするとか、そこまでやってくれるならばすごい技術革新です。
なにせリアルタイムで遅延なくその判断をしなければいけないわけですから。 

 

私のサイトでヤマハのYVC-1000をマイクスピーカとして推奨しているのは、初期設定で「空間的な特徴」を事前に掴んだ上で、それを利用して不要な情報をフィルタしたり必要な情報を持ち上げたりしている点が素晴らしいと思うからです。

つまり、AI的な技術に頼る前に、少しでもノイズか否かの判断材料となるような情報がシステムに与えられれば、ずっと正確に取捨選択できるはずなのです。

既にボツになってそうなアイディアかもしれませんが、例えばTV会議の際は冒頭に参加者に挨拶していただいて、そのときに参加者各自の音声特徴と座席の位置を認識し、そのパターンに外れる音声は減衰させる、エコーキャンセルする、などといった機能はどうでしょう。

「個人の音声の特徴」を人間がつぶさに聞き分けるように、その物理的な特性というのはもっと音声デバイスにおいて活用されるべきと思います。

予想するに、ブイキューブを使っていて何か音声が途切れるとか聞こえにくいといった場合のトラブルシューティングの中に「Krisp機能をオフにしてお試しください」というFAQが載る気がしてなりません。

 

ところで、TV会議とは外れますが、姉妹サイトを立ち上げましたのでご興味あれば。

「SEに疲れたら経理をやろう。地方の中小企業で。」

 



コメントを投稿