ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

Hadoop活用のすすめ

2011-07-07 16:02:41 | トピックス
Hadoop Forum 2011で、きいてきた内容まとめ その2

Hadoop活用のすすめ




■OSS取り組みとしてのHadoop

・コモディティを使い切る
  PostgreSQLで数TByteは行ける。それ以上Hadoop
  運用、保守の標準化
   必要十分を追求するOSS
   かれた技術を使う
 →Hadoopは変わっていて、チャレンジするOSS

 バランスのよい製品を選択できる
  →安い製品ではない。
 
・スケーラビリティを追求する
  HDFS:低価格サーバーの大量使用による故障の発生が前提の設計
  MapReduce:対規模分散処理向けフレームワーク




■BigData:データマネージメントの変化
・拡大するデータ量
  プロセス指向のIT化~データの扱いはETL
   ドメイン・業務分析
     →データ特定
        →システム化活用

  データ指向のIT化
   データをためておく
     →面白そうな対象を選び
        →システムに取り込みモデル化を試みる

大容量データ処理 &大件数データ処理
  →Hadoop得意(件数が多いものも)




■Hadoopの導入・活用の勘所

・適用領域
  大容量の全データを走査し、加工、転記する処理が基本
   例:
     定常的に生成される大容量データの集約、集積
     アドホックで繰り返す実行することがない場合
     ロングテール分析
     大量の中間データを保存、トレースする必要があるとき

  大容量に対して”リアリスティックな処理時間を実現

  スモールスタートにも向いている
    コモディティ製品を用いて始められる

Hadoopが解決してくれること、してくれないこと
◎分散処理を身近なものに
◎分散環境の構築を容易に

△偏りのないデータの分散配置
△スループットの最適化
△バランスのよいシステム構成

・活用の勘所

 よくある誤解
   KVSはRDBに比べ、必ずしも処理の再利用性、モジュール化が進むわけではない

 バランスのいいシステムにすること


・適用事例

 RDBベースの既存処理をHiveを用いて移植
  パフォーマンスがRDBほど出ない
    →日単位から、もっと大きな単位にまとめ、一括処理
       →パフォーマンス発揮

 帳票の転記が主体のバッチ処理に適用




■まとめ
スケールアウト技術を身近なものに
コモディティ技術を使い切る
 新しい処理モデルやデータモデルの採用

今まで扱うことが難しかった領域を切り開く
 分散処理を用いて、大量データ処理を経済的に
 埋もれていたデータ、埋もれてしまうログを活用する
 分断されていデータ、ログを掛け合わせて新しい活用法




間違ってたり、勘違いしてたらごめん。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする