ITの最新ソフトウェア、Windows&Apple製品価格比較

Xwin.jpの自己ブログです~
最新のソフトウェア更新と最高の価格を記載しております。

音声認識機能を向上させるMicrosoft Research

2013-06-24 17:29:48 | Microsoft

Red Hat Asia PacificやTechnology Oneの支援を受けつつ、オーストラリアのQueensland University of Technology(クイーンズランド工科大学)に、オープンソースソフトウェアと仮想技術に関する研究所を立ち上げる
ど、精力的に活動しているMicrosoftの研究機関「Microsoft Research」だが、同研究所は先頃発表したWindows
Phoneの音声認識機能の向上に大きく寄与したという発表を行った。そこで今週はMicrosoft
Researchが生み出した「DNN」について報告する。

Bing音声検索を改善するMicrosoft Researchの「DNN」とは


声データを分析してキーワードを取り出し、そのまま検索を行う「音声検索」は、音声認識の一端として研究されてきた。Windows
Vista以降は音声認識機能を標準搭載したものの、日本語の認識率はさほど向上せず、実用レベルに達したとは言い難い。その一方で最近ではスマートフォ
ンの普及により、検索キーワードを音声入力する音声検索が目立つようになってきた。


日行われた開発者向けカンファレンス「Google I/O
2013」でも、コンピューター上のWebブラウザで、音声検索および音声による回答機能のデモンストレーションが行われたのは記憶に新しい。また、
iOSのSiriのように、事前言語処理を用いて質問への回答やWebサービスの利用といった機能が既に具現化されているのは、読者もご承知のとおりだ。


らかに従来のテキストベースから音声ベースへと輪が広がる現状で、GoogleやAppleの後塵を拝するMicrosoftも、新たなアプローチを模索
しているのをご存じだろうか。同社はスマートフォン向けOSであるWindows
Phoneの音声認識機能を強化し、Bingに対する音声検索の速度を2倍程度向上させ、精度を15パーセント増したと自社ブログの一つ「BING
BLOGS」の記事で発表した。


事では「Microsoft Researchと緊密に協力し、DNN(Deep Neural
Networks)と呼ばれる新たなアプローチで機能向上を実現した」と述べられている。もちろんWindows
Phoneは日本国内で展開されておらず、音声認識も英語を対象としているため、この機能向上で我々が恩恵を受けることはない。だが、これらの音声認識が
我々の生活を一変させる可能性をはらんでいるのは、紛(まぎ)れもない事実だ(図01~02)。

図01 Microsoftで音声技術グループのシニアプログラムマネージャーであるMichael Tjalve氏。同時にワシントン大学の助教授も務める(以下、動画より)

図02 音声認識速度の向上を紹介するデモンストレーション。よく見ると従来版では「What dinner」と最初のセンテンスを拾い損ねている

そこで、注目したいのが「Inside Microsoft Research」という同研究所の最新情報を掲載するブログだ。「DNN Research Improves Bing Voice Search」という記事では、前述したDNNに関する詳しい解説が行われている。

Microsoft
Researchでは、Frank Seide(フランク・ザイード)氏やDong
Yu(ドン・ユー)氏らが研究してきた音声認識技術を、Bingの音声検索と結びつける一つの答えをだした。それがDNNだという。そもそも同研究の最高
調査責任者であるRick
Rashid(リック・ラシッド)氏が昨年2012年10月に中国で行ったプレゼンテーションでは、英語→中国語のリアルタイム音声翻訳をデモンストレー
ションしていた。


のデモンストレーションは、機械翻訳と音声合成、音声認識という3つの異なる技術を組み合わせたものだが、DNNはこの後半に当たり、
University of Toronto(トロント大学)のGeoffrey
Hinton(ジェフリー・ヒントン)氏の研究が基礎となっている。ちなみに同氏は"ニューラルネットワークの父"というニックネームを持つ研究者として
有名。昨年発表された「Brains, Sex, and Machine Learning」はYouTubeでも視聴可能だ(図03)。

図03 Geoffrey Hinton氏の講演はYouTube上で視聴可能

Microsoft

Researchの研究者たちは、発声パターンを示す数百万ものパラメーターをデータ化し、パターンに類似したものを検出する仕組みをDNNとして構築。
ちょうど、我々人間の脳内にあるニューロン(神経細胞)が、情報処理と情報伝達に特化して動作するように、生体システムがパターンを認識するロジックを音
声認識に取り込んだのがDNNである。


葉にするのは簡単だが、実用レベルに達するまでには膨大な音声データを取得し、分析パターンを作り出すための長い道のりがあったという。前述の
Windows Phoneによる音声検索は、Bingの大規模なインデックスデータとMicrosoft
Researchの研究結果を結合することで、さらに良質な結果を生み出し、同記事でも「Bingの音声機能が人間の会話を認識する"方法"に近づいた」
と述べている。

これらの成果がBing on Xboxやデスクトップ版Bingなど数多くのサービスに反映されるのは明らかだろう。キーボードやマウスといった旧態依然の入力デバイスから脱却できる日は遠くない。

Xwin.jp店舖会員Microsoft Windows 8 Pro 64bit6000円で2個!



コメントを投稿