Hadoopは３０G～１００G倍度以上のものへの利用に向いている

2011-07-06 23:22:01 | トピックス

Hadoop Forum　２０１１で、きいてきた内容まとめ

「エンタープライズにおけるHadoop活用」
三菱東京UFJインフォメーションテクノロジーの人

(以下、お話の内容まとめ）

■Hadoopとは
・情報爆発時代の到来
・RDBMSが想定するデータ量を大幅に超過
　　　→超大量データを扱うためのインフラとしてHadoop
・インターネット企業とエンタープライズ：扱う量が違う
　　　→利用価値は？
・Hadoop
　　・大量データを分散並列で処理するためのオープンソース
　　・Linuxのみサポート

■Hadoopのアーキテクチャ
　２つ

・（１）HDFS：分散ファイルシステム
　　マスターノード（NAME　Node、メタデータ、DataNodeの生死管理）と
　　スレーブノード（DataNode)

・（２）MapReduce：分散処理フレームワーク
　　Map：分解、加工、抽出
　　Shaffle：並び替え、統合
　　Reduce：集約、連結

■Hadoop活用のメリット
・スケーラビリティ
　　→スモールスタート
・パフォーマンス
・コスト
・アプリケーションの生産性・保守性向上

■エンタープライズシステムにおけるHadoop活用

種別　　　　　　　一貫性

リアルタイム　　　必要　　　　　RDB
　　　　　　　　　不要　　　　　KVS
バッチ　　　　　　必要　　　　　RDB
　　　　　　　　　不要　　　　　HDFS

まとめると
　　更新される　　RDB
　　更新されない（過去履歴等）　レスポンス重視 KVS
　　　　　　　　　　　　　　　スループット重視 HDFS

→CAP定理から考えても・・

細かく機能でいうと
・向いている処理：データ更新の一貫性を持つ必要ない処理
　　　ファイル入出力
　　　個別処理
　　　フィルタリング
　　　ソートマージ
　　　サマライズ
　　　ジョイン　　◎
・向いていない処理
　　　順序を意識した処理

たとえば

・情報系
　　データウェアハウス
　　データマイニング

・基幹系
　　バッチ

・文書、コンテンツ管理

・対顧客チャネル
　　レコメンデーション

・業務システム全般
　　ログ管理

データ規模は？
　小規模データでは向いていない
　大規模：３０G～１００Gぐらい
　　　　より大きければ、メリットあり

■開発手法
・Java
・HqdoopStreaming　＋　任意のスクリプト言語
・PIG
・Hive

■実際の利用状況

ログ監視にりようしているとのこと

間違ってたり、勘違いしてたらごめん。

ランキングに参加中。クリックして応援お願いします！

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

アクセス
閲覧	1,097	PV
訪問者	618	IP
トータル
閲覧	34,666,664	PV
訪問者	8,600,684	IP
ランキング
日別	724	位
週別	753	位

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】カズ選手はいつまで現役？
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）