Hadoop Forum 2011で、きいてきた内容まとめ その2
Hadoop活用のすすめ
■OSS取り組みとしてのHadoop
・コモディティを使い切る
PostgreSQLで数TByteは行ける。それ以上Hadoop
運用、保守の標準化
必要十分を追求するOSS
かれた技術を使う
→Hadoopは変わっていて、チャレンジするOSS
バランスのよい製品を選択できる
→安い製品ではない。
・スケーラビリティを追求する
HDFS:低価格サーバーの大量使用による故障の発生が前提の設計
MapReduce:対規模分散処理向けフレームワーク
■BigData:データマネージメントの変化
・拡大するデータ量
プロセス指向のIT化~データの扱いはETL
ドメイン・業務分析
→データ特定
→システム化活用
データ指向のIT化
データをためておく
→面白そうな対象を選び
→システムに取り込みモデル化を試みる
大容量データ処理 &大件数データ処理
→Hadoop得意(件数が多いものも)
■Hadoopの導入・活用の勘所
・適用領域
大容量の全データを走査し、加工、転記する処理が基本
例:
定常的に生成される大容量データの集約、集積
アドホックで繰り返す実行することがない場合
ロングテール分析
大量の中間データを保存、トレースする必要があるとき
大容量に対して”リアリスティックな処理時間を実現
スモールスタートにも向いている
コモディティ製品を用いて始められる
Hadoopが解決してくれること、してくれないこと
◎分散処理を身近なものに
◎分散環境の構築を容易に
△偏りのないデータの分散配置
△スループットの最適化
△バランスのよいシステム構成
・活用の勘所
よくある誤解
KVSはRDBに比べ、必ずしも処理の再利用性、モジュール化が進むわけではない
バランスのいいシステムにすること
・適用事例
RDBベースの既存処理をHiveを用いて移植
パフォーマンスがRDBほど出ない
→日単位から、もっと大きな単位にまとめ、一括処理
→パフォーマンス発揮
帳票の転記が主体のバッチ処理に適用
■まとめ
スケールアウト技術を身近なものに
コモディティ技術を使い切る
新しい処理モデルやデータモデルの採用
今まで扱うことが難しかった領域を切り開く
分散処理を用いて、大量データ処理を経済的に
埋もれていたデータ、埋もれてしまうログを活用する
分断されていデータ、ログを掛け合わせて新しい活用法
間違ってたり、勘違いしてたらごめん。
Hadoop活用のすすめ
■OSS取り組みとしてのHadoop
・コモディティを使い切る
PostgreSQLで数TByteは行ける。それ以上Hadoop
運用、保守の標準化
必要十分を追求するOSS
かれた技術を使う
→Hadoopは変わっていて、チャレンジするOSS
バランスのよい製品を選択できる
→安い製品ではない。
・スケーラビリティを追求する
HDFS:低価格サーバーの大量使用による故障の発生が前提の設計
MapReduce:対規模分散処理向けフレームワーク
■BigData:データマネージメントの変化
・拡大するデータ量
プロセス指向のIT化~データの扱いはETL
ドメイン・業務分析
→データ特定
→システム化活用
データ指向のIT化
データをためておく
→面白そうな対象を選び
→システムに取り込みモデル化を試みる
大容量データ処理 &大件数データ処理
→Hadoop得意(件数が多いものも)
■Hadoopの導入・活用の勘所
・適用領域
大容量の全データを走査し、加工、転記する処理が基本
例:
定常的に生成される大容量データの集約、集積
アドホックで繰り返す実行することがない場合
ロングテール分析
大量の中間データを保存、トレースする必要があるとき
大容量に対して”リアリスティックな処理時間を実現
スモールスタートにも向いている
コモディティ製品を用いて始められる
Hadoopが解決してくれること、してくれないこと
◎分散処理を身近なものに
◎分散環境の構築を容易に
△偏りのないデータの分散配置
△スループットの最適化
△バランスのよいシステム構成
・活用の勘所
よくある誤解
KVSはRDBに比べ、必ずしも処理の再利用性、モジュール化が進むわけではない
バランスのいいシステムにすること
・適用事例
RDBベースの既存処理をHiveを用いて移植
パフォーマンスがRDBほど出ない
→日単位から、もっと大きな単位にまとめ、一括処理
→パフォーマンス発揮
帳票の転記が主体のバッチ処理に適用
■まとめ
スケールアウト技術を身近なものに
コモディティ技術を使い切る
新しい処理モデルやデータモデルの採用
今まで扱うことが難しかった領域を切り開く
分散処理を用いて、大量データ処理を経済的に
埋もれていたデータ、埋もれてしまうログを活用する
分断されていデータ、ログを掛け合わせて新しい活用法
間違ってたり、勘違いしてたらごめん。