Hadoop Forum 2011で、きいてきた内容まとめ
「エンタープライズにおけるHadoop活用」
三菱東京UFJインフォメーションテクノロジーの人
(以下、お話の内容まとめ)
■Hadoopとは
・情報爆発時代の到来
・RDBMSが想定するデータ量を大幅に超過
→超大量データを扱うためのインフラとしてHadoop
・インターネット企業とエンタープライズ:扱う量が違う
→利用価値は?
・Hadoop
・大量データを分散並列で処理するためのオープンソース
・Linuxのみサポート
■Hadoopのアーキテクチャ
2つ
・(1)HDFS:分散ファイルシステム
マスターノード(NAME Node、メタデータ、DataNodeの生死管理)と
スレーブノード(DataNode)
・(2)MapReduce:分散処理フレームワーク
Map:分解、加工、抽出
Shaffle:並び替え、統合
Reduce:集約、連結
■Hadoop活用のメリット
・スケーラビリティ
→スモールスタート
・パフォーマンス
・コスト
・アプリケーションの生産性・保守性向上
■エンタープライズシステムにおけるHadoop活用
まとめると
更新される RDB
更新されない(過去履歴等) レスポンス重視 KVS
スループット重視 HDFS
→CAP定理から考えても・・
細かく機能でいうと
・向いている処理:データ更新の一貫性を持つ必要ない処理
ファイル入出力
個別処理
フィルタリング
ソートマージ
サマライズ
ジョイン ◎
・向いていない処理
順序を意識した処理
たとえば
・情報系
データウェアハウス
データマイニング
・基幹系
バッチ
・文書、コンテンツ管理
・対顧客チャネル
レコメンデーション
・業務システム全般
ログ管理
データ規模は?
小規模データでは向いていない
大規模:30G~100Gぐらい
より大きければ、メリットあり
■開発手法
・Java
・HqdoopStreaming + 任意のスクリプト言語
・PIG
・Hive
■実際の利用状況
ログ監視にりようしているとのこと
間違ってたり、勘違いしてたらごめん。
「エンタープライズにおけるHadoop活用」
三菱東京UFJインフォメーションテクノロジーの人
(以下、お話の内容まとめ)
■Hadoopとは
・情報爆発時代の到来
・RDBMSが想定するデータ量を大幅に超過
→超大量データを扱うためのインフラとしてHadoop
・インターネット企業とエンタープライズ:扱う量が違う
→利用価値は?
・Hadoop
・大量データを分散並列で処理するためのオープンソース
・Linuxのみサポート
■Hadoopのアーキテクチャ
2つ
・(1)HDFS:分散ファイルシステム
マスターノード(NAME Node、メタデータ、DataNodeの生死管理)と
スレーブノード(DataNode)
・(2)MapReduce:分散処理フレームワーク
Map:分解、加工、抽出
Shaffle:並び替え、統合
Reduce:集約、連結
■Hadoop活用のメリット
・スケーラビリティ
→スモールスタート
・パフォーマンス
・コスト
・アプリケーションの生産性・保守性向上
■エンタープライズシステムにおけるHadoop活用
種別 一貫性 リアルタイム 必要 RDB 不要 KVS バッチ 必要 RDB 不要 HDFS
まとめると
更新される RDB
更新されない(過去履歴等) レスポンス重視 KVS
スループット重視 HDFS
→CAP定理から考えても・・
細かく機能でいうと
・向いている処理:データ更新の一貫性を持つ必要ない処理
ファイル入出力
個別処理
フィルタリング
ソートマージ
サマライズ
ジョイン ◎
・向いていない処理
順序を意識した処理
たとえば
・情報系
データウェアハウス
データマイニング
・基幹系
バッチ
・文書、コンテンツ管理
・対顧客チャネル
レコメンデーション
・業務システム全般
ログ管理
データ規模は?
小規模データでは向いていない
大規模:30G~100Gぐらい
より大きければ、メリットあり
■開発手法
・Java
・HqdoopStreaming + 任意のスクリプト言語
・PIG
・Hive
■実際の利用状況
ログ監視にりようしているとのこと
間違ってたり、勘違いしてたらごめん。