ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

Hadoopクラスタの推奨構成、推奨設定、運用のつぼ

2012-03-18 20:28:01 | Weblog
OSC2012で聞いて来た内容をメモメモ!

■Hadoop認定技術者が語る!Hadoopクラスタの推奨構成、推奨設定、運用のつぼ

Hadoop
  キーは、分散ファイルシステム
  もともとのコンセプトを知ること大事
     GoogleにのGFS
     構成されているサーバーが安価:信頼性が低いもの
       →壊れることが前提の条件

HDFSの基礎
・既存OSのファイルシステム上で稼動できる
・ブロックごとに分かれる:デフォルト64M(実際には128も多い)
・レプリケーション3がおおい
   1Tだと、3倍・・3Tでいいわけではない、もう少しいる

・大きいファイルを少ないノードで管理するのがとくい
   1Mを2000台より2G1個のほうがいい
・シーケンシャルのほうがとくい
   MapReduceに置き換えられる:レイテンシがある
   RDBのようなものは向かない
   Hbase(KVS)はレイテンシを低減している
   大きいファイルはHDFS
・HDFSは数十Pでも問題ない
・ファイル追記は正式にはサポートされていない
・大きなファイルをブロックに分けるのがいい

・単一障害点が存在する
   ネームノード
     とくにfsimageとedits
     バックアップいる

・RAIDだと性能落ちる→JBOD

・実は中間ファイルもできる:ディスク容量注意
   ログも激しく書かれるので注意

・サーバー1台にHDD4~12台

・サーバー構成
  ジョブトラッカー→タスクトラッカー
   小規模構成(~20台)
     ネームノードとジョブトラッカー同じサーバー
   それ以上
     ネームノードとジョブトラッカーサーバー分ける

・Hadoopのシステム拡張
   5~8ノードくらいからはじめ
   追加(3種類)
      計算能力必要=CPU不足
      大量データ=ハードディスク
      配列処理(mapReduce)=メモリー追加
   データノードとレプリカから、購入頻度がわかる
   メモリ:1アイテムあたり200バイト消費
      →ファイルの個数が重要
       ファイルの個数が増えると、アイテム数が増え、
       最悪、スワップが走る

・セカンダリネームノード
   ネームノードのふぇ-ルオーバー先では「ない!」
   ネームノードの負荷を軽減するために、ある処理が動く

・Hadoopの設定
   1個1個BIOS画面を見て設定するのは、現実的でない
    →BIOSの設定を吸出し、配布する必要
     HPはフリーでそういうツールがある
     HP SmartStart Scripting Toolkit

   マウスで設定でいいわけではない。

・Ubuntu(Fedoraは推奨でない)
 tar-ballからだと、少し操作方法が変わることも

・タスクトラッカー、MapReduceは障害があっても手順がある。
 JobTrackerに障害が起こると、JVMタスクの動作は不安定
   →ジョブのやり直しになってしまう
      →FTクラスターでできる?

・スワップさせたら負け
・NTPを必ず設定、時刻大事
・Hadoopのパラメータを行うXMLファイル
   →クラウディアさんのところにデフォルトあり

・DL180を使っているお客さん多い
・既存のDBからSQOOPを使って、Hadoopに入れることができる
・非定型は、FlumeでHadoopへ
この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« MySQL User Forum Tokyo | トップ | スケールアウト型SQLデー... »
最新の画像もっと見る

Weblog」カテゴリの最新記事