ゴエモンのつぶやき

日頃思ったこと、世の中の矛盾を語ろう(*^_^*)

GoogleのAIは専門家よりも高精度な読唇術が可能

2016年11月26日 02時15分30秒 | 障害者の自立

 GoogleのAI開発部門であるDeepMindとオックスフォード大学の研究者たちが、AIを用いて最も正確な読唇術ソフトウェアの「Watch, Listen, Attend, and Spell」を開発しました。開発ではAIのニューラルネットワークに何千時間分ものBBCのTV放送で読唇術を学習させ、実際の発言内容の46.8%を正確に読唇可能なソフトウェアに仕上がったそうです。「46.8%」という数字だけ見るとそれほど画期的なソフトウェアではないように感じるかもしれませんが、AIが読唇した映像をプロの読唇術者が同じように読唇したところ、正しく言葉を拾えたのは全体のわずか12.4%のみで、AIがいかに高精度であるかがわかります。

また、オックスフォード大学の別の研究グループは「LipNet」と呼ばれる読唇術ソフトウェアを発表しています。LipNetはテスト段階では驚異の93.4%という正解率をたたき出したソフトウェアで、同じ映像をプロの読唇術者が読唇した場合の正解率は52.3%だったそうです。ただし、LipNetはボランティアの人が決められた文章を話す様子を撮影し、その映像で読唇術の精度をテストしたものであり、Googleが開発したAIのようにさまざまな映像で読唇術の精度を試したものではないという点には注意が必要です。

GoogleのAIが読唇術の学習に用いた映像の総合計は5000時間を超えており、使用されたのは「Newsnight」「Question Time」「World Today」といった番組。これらの番組では11万8000個の異なる文章や、1万7500個ものユニークワードが登場しているのですが、LipNetがテストに用いた映像ではわずか51個のユニークワードしか登場していません。

DeepMindの研究者はこの読唇術ソフトウェアがさまざまな分野で役立つと見ており、聴覚障害のある人々が会話の内容を理解することに役立つ以外にも、無声映画に注釈をつけたり、SiriやAlexaのような音声認識AIの精度を高めるために使われたりする可能性もある、としています。

なお、研究者によれば、明るい照明の下で高解像度に撮影されたTV映像と、フレームレートの低い低画質な映像とでは読唇術の精度が大きく異なってくるそうですが、海外ニュースメディアのThe Vergeは「AIはその差すらも埋めてきているように思える」とAIによる読唇術の精度の高さを評価しています。

2016年11月25日   GIGAZINE

ジャンル:
ウェブログ
コメント   この記事についてブログを書く
この記事をはてなブックマークに追加
« 災害弱者受け入れ強化へ 札... | トップ | 人機一体!? 最新技術を取り入... »
最近の画像もっと見る

コメントを投稿


コメント利用規約に同意の上コメント投稿を行ってください。

数字4桁を入力し、投稿ボタンを押してください。

あわせて読む

トラックバック

この記事のトラックバック  Ping-URL