阿部ブログ

日々思うこと

ユニバーサル・コミュニケーション研究所

2013年05月20日 | 日記
ユニバーサル・コミュニケーション研究所は、、独立行政法人 情報通信研究機構(NICT)隷下の研究組織で、ユニバーサル・コミュニケーション基盤技術に関する研究を行う専門組織。ユニバーサル・コミュニケーションとは、ネットワークを介して流通する膨大な情報の効率的かつ的確な活用や、多様な情報のより豊かな活用など、「人と人」、「人とネットワーク」等の様々な階層間において人との親和性が高い情報通信を実現するため、豊富で柔軟な言語コミュニケーションを実現する技術及び臨場感豊かなネットワークコミュニケーションを実現する技術等を総称した言葉。

ユニバーサル・コミュニケーション研究所では、「言語の壁」を越えるための多言語音声翻訳、「情報の量と質の壁」を超えるための情報分析技術、「距離や臨場感の壁」を越えるための超臨場感通信技術を研究・開発している。また、これらの技術を利活用するための「知識・言語グリッド」と呼ばれる情報利活用基盤上で大量のWeb情報やセンサ情報などから構築された大規模高度情報資産を作り上げる取組を進めている。
研究所では、多言語音声翻訳システム VoiceTra4U-M、音声対話システム AssisTra、情報分析システム WISDOM2013、多感覚インタラクションシステム、臨場感あふれる立体ディスプレイである電子ホログラフィなど、研究成果を見る事が出来る。

特に感心したのは、iPhone向けアプリ"VoiceTra4U-M"。
この"VoiceTra4U-M"は、23言語、5人同時に会話しながら、音声を翻訳するアプリケーションで、全世界の95%をカバー出来る優れものだが、この技術は、NICTが国際標準化したネットワーク型音声翻訳通信プロトコル(ITU-T※勧告書F.745及びH.625に準拠)で実装したものである点。日本は国際標準化活動が余り得意ではない印象が強いが、国際電気通信連合に採用されたのは、高く評価したい。"VoiceTra4U-M"は、AppStoreから無料でダウンロード可能。

ITU-T(国際電気通信連合 電気通信標準化部門:International Telecommunication Union Telecommunication Standardization Sector)  
ITU-T勧告F.745:音声翻訳サービスに必要な機能モジュール(音声認識、機械翻訳及び音声合成)をネットワーク接続するための要求条件、アーキテクチュア等を規定。
ITU-T勧告H.625:機能モジュール間での通信を実現するためのインタフェース、プロトコル及びデータフォーマットを規定。

標準化活動もさることながら、多言語音声翻訳を日本単独で確立することは非常に困難なため、世界各国の研究機関が参加する国際研究コンソーシアム「U-STAR」をNICTが中核となって立ち上げ、世界規模の音声翻訳研究ネットワークの実現を目指している。現在、世界23か国、26の研究機関と連携したグローバルな研究共同体となっている。

※U-STAR(ユニバーサル音声翻訳先端研究コンソーシアム:The Universal Speech Translation Advanced Research Consortium)http://www.ustar-consortium.com/index.html 

それとバーチャルに五感で体験できる「多感覚インタラクションシステム」も凄い。ユニバーサル・コミュニケーション研究所の多感覚・評価研究室では、人間の味覚以外の視覚、聴覚、触覚、嗅覚の情報をリアルにかつ自然に伝える超臨場感コミュニケーションを実現するために、立体映像、感触、音響、香りなどを統合して、多感覚の情報を違和感なく自然に体験できる多感覚インタラクション技術の開発を進めている。
 多感覚インタラクション・システムはコレだ→

多感覚インタラクション・システム(Multi-Sensory Interaction System: MSenS)は、視覚や聴覚、触覚など複数の感覚情報を統合して物をバーチャルに再現するシステム。立体映像ディスプレイや、物に触れた際の接触音などを再生する音響システム、ペンを使って触覚を再現する装置などで構成されている。このシステムでは、高松塚古墳から出土した「海獣葡萄境」の再現デモと風船を破裂させるデモの2つを体験した。3Dメガネをかけ、棒状に伸びたペン型アームをつかんで立体映像を触ると、感触や重さ、触った際に起こる音や匂いを体験できる。その〝リアルさ“に驚愕!

この多感覚インタラクション・システムは、ペン型アームを3つのモーターで制御する。このアームには位置センサが付いており、アームの座標を元に、立体映像のどこを触っているかを判断する。モーターを使ってアームを押し返すフォースフィードバックで手に感触を伝え、接触音も事前に登録しておき、感触と同時に音も出るようにしている優れもので、遠隔医療など様々な利活用が可能だろう。

同じ、多感覚・評価研究室では、球形スピーカーによる立体音響の研究を行っている。
立体音響と聞くと5.1chサラウンドなどを想像するが、当室では、従来とは全く異なる音響環境の研究を行っており、次々世代くらいの空間再生型、立体テレビに対応した音響技術の確率を目指している。
従来の音響技術は、聞く人の周囲に音を提供し、その環境の中に入ってもらう、あるいは没入してもらうという形のもの。それがモノラルからステレオになり、それがサラウンドシステム5.1chになってきたが、この研究室では、演奏者なり音源が目の前にあって、そこから音が出ているというシステムの実現させた。例えばSF映画の『スター・ウォーズ』でR2D2というロボットがメッセージを再生すると、レイア姫の姿が目の前の空間に浮かび上がって「ヘルプミー」と言っている場面があるが、そのような空間再生型のテレビや音響デバイスを開発したいと言う。
                 

この研究所では、下記でも述べるが3D映像研究も行っているが、本当に立体ホログラフィ技術が確立されると、やはり音響も立体化する必要があるので、研究開発を進めていると言う訳。この立体音響の為には、立体録音が必要となるが、実際に42個のスピーカーを配置したかご型のフレームの中に入ってもらって実際に録音する。
スピーカー自体はその辺で売っている安いスピーカーで十分だが、録音した音響を立体化するアンプと制御装置が重要。球形スピーカーは、iPadで遠隔操作する方式で、直感的で操作しやすいと感じた。またきちんとした数学的基礎の基に立体音響を実現させている事も強調していたのが記憶に残っている。

最後に、多人数で観察できるテーブル型裸眼立体ディスプレイ「fVisiOn」。
この「fVisiOn(エフ・ビジョン)」は、テーブル型3Dディスプレイで、テーブルトップに表示された3D映像を全周360度から観察を可能とした。一般的な3Dディスプレイの技術では、3D映像をテレビのように正面側の限られた範囲でしか観察することができないが、「fVisiOn」は、より自然なコミュニケーションを達成するためには、特別なメガネをかけることなく、何人でも同時に3D映像を観察できることが望ましいと考え開発したもの。

現実世界の物体は、両目が左右に離れているので、それぞれの眼には少しずつ違う見え方で写る。この見え方の差が立体を感じる要因のひとつですが、fVisiOnでは、円状に並べた多数のプロジェクタを使って様々な方向へ向かう光線群を大量に作り出し、それらの進み方をうまく制御する光学素子を使うことによって、見る方向で見え方が変わる映像をテーブルトップに表示する。これにより、立体的な映像として両目で知覚することができる。

fVisiOnの開発では、上記の再生原理を実現する光学素子の作製が難しかったが、すり鉢状のアクリル円錐に糸状のレンズを巻くという工夫で、必要な光学的性能を得ることに成功した。糸状のレンズとは言っているが、実際は「釣り糸」。釣具屋で買ってきた釣り糸をアクリル円錐に、研究員自らが手で巻いて作成した。現在のfVisiOnでは、テーブルトップから5cmほど飛び出した3D映像を全周から観察できるようになった。勿論、静止画だけではなく動画も再生可能で、実物の模型ではできない動きのある情報提示が可能であることもfVisiOnの利点のひとつ。

様々な画像と動画を見せて頂いたが、最後に満を持して見せてくれたバーチャルアイドル「初音ミク」の3D動画。それがコレだ!と言いたいが撮影に失敗~
                       

最新の画像もっと見る