阿部ブログ

日々思うこと

データスペースと情報統合技術

2012年02月18日 | 日記
リレーショナルデータベース(RDB)やXMLデータベースなどを対象に、多様な情報を一つのデータベースとして統合して検索利用する研究を、情報統合(Information Integration)と呼んでいる。

現在、音声、静止画・動画などらゆる非構造データやXMLなどの半構造データ、リレーショナルデータベースなどの構造データ、地理空間データなど、様々なデータを対象にして、ユーザーの要求に応じて妥当適切な情報統合環境を実現するべく企業や研究機関などで開発が進められている。

このような情報統合技術を、過去の単純な異種関係データベース間の情報統合技術と区別して、データスペース(Data Space)と呼ぶことがある。このでデータスペースは、ユーザによるフィードバックを得て適切な情報源を特定する技術、また相異なる情報源のうち対応する可能性の高いスキーマや属性を半自動で検出する事や、その統合検索の技術、また複雑な情報スキーマを知らなくても適切に質問できるようにキーワード検索を統合グラフデータモデル上で実現するなどの試みがなされている。

前述のPregelなどのグラフデータベース技術などの分野とも密接に関連しており、現実に時空間データなど多様なデータがWeb上に激増していることから単純なWeb検索エンジンとは異なる検索サービスとして今後重視され、また有力ビジネスモデルが確立できる可能性のある領域である。

情報爆発の様相は更に加速している現状において以前にもまして、大量情報の格納基盤とも言えるデータベースシステム技術、ならびに、膨大なデータからの有益情報の抽出するマイニング技術の重要性は高まり、データストリーム管理、PUB・SUB、匿名化データマイニングなどが重要な技術と捉えられている。

今将にクラウドコンピューティングが喧伝されているが、これら分散した巨大データセンタ群を基盤とするIT環境は、所謂浮動小数点を中心とするスーパーコンピュータ適用分野ではなく、データインテンシブコンピューティングへの新たなニーズにあったことを理解する事が重要。これを踏まえて次の三井物産としてはR&D戦略を練る事が重要であり不可欠である。

特に注視すべきは、Googleがwarehouse scale computingという名称で巨大データインテンシブ計算環境を位置づけていること。エナジプロポーショナルコンピューティングやHadoop等、Google発祥によるIT技術が今後の多く展開されるものと想定される。片やマイクロソフト社ではCDI(情報技術による発見支援)が重要なテーマとして取り上げられており、中国では温家宝首相のリーダシップによるIOT(Internet of things)への取り組みが注目される。

最新の画像もっと見る