goo blog サービス終了のお知らせ 

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

HBaseの本、あたったよ(^^)v NHNテクノロジーカンファレンスで!

2012-08-18 20:31:28 | Weblog
NHNテクノロジーカンファレンスにいってきた。

「Hな話」ということで、5つお話を聞いてきた。その後
「Hなプレゼント」ということで、HBaseの本、3名様に抽選で!
ということで、「抽選君」で抽選をしました。

そしたらなんと、あたりました!
HBaseの本Get!!

それはさておき、聞いてきた話のメモメモ




■HTML5 Animation in Mobile Web Games
韓国 シムさん(同時通訳)

・HTML5モバイルゲームに適用した事例の紹介
・Androidはあんまりすきじゃない
・What Is Animation
 少しずつ変化するものを集めたもの
   韓国ではタクシーで馬が走るのがあった
 必要なもの
   リソースマネージメント
     →イメージの管理
     →ゲームではローディング画面を出しても待ってくれる
   オブジェクト化
     DOMはオブジェクトを持っているけど、
     CANVASはオブジェクトを持ってない
       →自分でオブジェクト化する必要がある
   アニメーション
     CSSトレーション、タイマー使えない
       (多数のタイマーは干渉する)
     レンダリングパイプラインを使う
     ティっク1秒に60回
        モニターが60Hzだから60FPSが最適
        20FPS以上必要
     リクエストアニメーションフレームも使える
       →ios6から
   ドローイング
     キャンバスを消す方法
      ClearRect
      スプライトアニメーション
        IOS4:ピクセルの操作→演算が走る
     座標
      小数点の座標:
        自動的にアンチエイリアシングはしり、ぼんやりする
     イベント
        □より、もうすこし精密な領域が必要
        GetImageData:セキュリティ的に外部からもってこれない
           →CDNの場合外部からになるケース
 ios4とios5の差
   GPUアクセラレートの差
   →CSS3Dのトランスフォームを使うと、アクセラレートされる
      →トランスフォームを使う
   →イメージエレメントが必要になってくる

 Andriod
   断片化がひどい→全部サポート??
   Andriod ICSは、CSS3D使える(2.Xは手がない)
    →バグがある 2048ピクセル、回転した場合

 1秒に60回=100オブジェクトなら、6まん回・・・

 Collie
   オープンソースにした。
   http://jindo.dev.naver.com/collie




■日々進化するHadoopの「今」
 NTTデータ Hadoopを7、8年やっている
 Hadoop徹底入門

Hadoopを使っている人
  会場見た目6割くらいは使っている

2つのコンポーネント
   分散ファイルシステム HDFS
   大規模分散フレームワーク MapReduce

複数のIAサーバー
   大きなデータ:分散
   あまり移動せずに処理
分散処理固有の問題:フレームワークで解決
   こわれる
   遅延
HDFS
   マスター:NameNode
   スレーブ:DataNode
MapReduce
   マスター:JobTracker
   スレーブ:TaskTracker 
Hadoopは
  高速なRDBMSや検索エンジンではない
  RDB:IOの量を最小にしようとする
  Hadoop:データの管理は行わない
MapReduce:並列して実行

急速に発展するエコシステムがHadoopの魅力のひとつ
   Hbase,Hive、Mohout、Pig
  →組み合わせるときつい
Hadoopディストリビューション
 CDH、HDP
Hadoopの動向
 活発に進んでいるが・・・
 バーションはやや複雑な状況
  Hadoop1.0系(0.20系)
    →CDH 3
  Hadoop2.0系
    →CDH 4
NameNodeHA
  Hadoop単体では、SPOFと言われていたNameNodeのHA化
  スライドシェアにレポートをおいておいてある
HDFS Federation
  Hadoopでボリュームみたいな概念
    ブロックストレージとネームスペースの分割
    マルチテナントに必要な要素の1つ
YARN(やーん MapReduce2.0)
 Hadoop 4000ノードまでしかスケールしない:こまった
    →アーキテクチャを変えて10000台へ
     MPIなど、MapReduce以外の分散処理も
まとめ
・新バージョンつぎつぎ
・アーキテクチャのも直し
・エコシステムは成長
・いくつかの技術が浸透中
  並列分散
  機械学習
  スケーラビリティ
・Hadoopカンファレンスやります。




■Hbase at Line

・NHNとNaverの話
  さいきんNaverまとめ、Line
  アメリカでSNSランキング1位


Line
・はじめ:パフォーマンス Redis
・グローバル化:
・スケーラブル 


・はじめ:パフォーマンス Redis
  中東盛り上がり
  →シャーディング、ZooKeeper


・スケーラブル 
  アジアで盛り上がり!とくに香港
   Redisではだめ
   ザッカーバース:シェアの法則
   Lineカンファレンス:1日10億メッセージと発表
   データとスケーラビリティー
     Hbase
     Cassandra:コンシステンシー

 HBase

  数百TBを格納可能
  Strong コンシステンシー
  アドホックにロードバランシング

 1つのモデルで1つのROW
  →コンシステンシーが1つのROW

 RedisからHBaseへ移行

 スケーラビリティ ○
 障害は・・・X
  Hbaseは、火山
    リージョンサーバーが死ぬと、ダウンタイム発生

 Compaction対策




■OSSで支えられるライブドアの巨大ログ集計 HiveとFluentd
tagomorisさん
・どういうことをやっているかの話
  PV/UUの集計
  HTTPレスポンスコード時系列変化
  レスポンスタイム時系列変化
  あれこれ

Webサーバー(数百台)
  |
 生ログ
  |
 Fluentd(リアルタイム処理、数十台)
     →Graphic
  |
 HadoopHDFS:Hive Server
    集計処理

 CDH3u5 + CentOS +JDK5

・Hive
 Apacheオープンソースプロダクト
 HiveQL(ほぼSQL)
 集計、統計でパフォーマンスがよい
 RPCを使える(HiveServer経由で)

・Fluentd
 オープンソース
 構造化ログ収集用ソフトウェア
 Map:片っ端から処理できる
    →fluentdも片っ端から処理できる

・集計クエリの登録と実行
 shib
 Hiveクエリを実行する口

・なぜ、自分たちで作るか
  自分たちで数字が説明できる
  追試可能でなければならない
  機能と継続性
    機能とコンポーネント分離

・機能とコンポーネント分離
   Hadoop/HDFS
     Hive server

     Shib
     ShibUI

・機能のアップデート
  ミドルウェアの機能アップデート
     頻繁にある
  UIツールの機能アップデート
・機能向上のための鉄則
  頻繁に、ただし全体を壊さずに
    →コンポーネント分離
  祖結合
  小さく、変更内容が追えるツールをOSSでそろえる

・規模の拡大とデプロイの話
  規模の拡大
   量の拡大(スケールアウト・スケールアップ)
   バリエーションの拡大
  スケールする:両方に対応できていないと

  変更は少なく、追加は容易に
  汎用の公開ソフトウェアを可能な限りそのまま使う
    デプロイ容易性

・場合によっては、あらゆるところに手をいれる覚悟をしておく
  →基本的にはしない
 コンセプトの良いOSSを選んで使う

グラフ HR for Cast




■Data Scientistの立場から見るHadoop利用

トレジャーデータの人。
MongoDBの人

思考フロー:処理フローと逆
 ・ゴールの設定
 ・ツールの選択
 ・中間データ形式の選択
 ・Hadoopの活用

どんな動物を選ぶか!(象とか豚とか)

Hiveが使いやすくていいかな・・・

・トレンドの話
 インタラクティブ処理
   →Hadoopファミリはバッチ処理
    Dremei

HIVE
 ・モニタリング
 ・JDBC,ODBCドライバ
 ・R/Excel/SPSS

モニタリング
 ・KPIの観測
 ・異常通知
 →1つ1つのパネルにクエリを入れる

BI
 ・さまざまな切り口
   Excelのピボットテーブル
 ・キューブという概念
   それぞれのディメンジョンには深さがある
     →集計値を持っておく
   MR CUBEというアルゴリズム
     →Pigでも実装提案
 ・Tableau

Googleの技術
・アドホック技術 3つのプロジェクト

  ・Tenjing
    Hiveっぽい。MapReduce強化

  ・Dremel
    独自フォーマット、高速に結果を返す
    BigQuery

  ・PowerDrill
    裏側で大規模集計
    

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする