NHNテクノロジーカンファレンスにいってきた。
「Hな話」ということで、5つお話を聞いてきた。その後
「Hなプレゼント」ということで、HBaseの本、3名様に抽選で!
ということで、「抽選君」で抽選をしました。
そしたらなんと、あたりました!
HBaseの本Get!!
それはさておき、聞いてきた話のメモメモ
■HTML5 Animation in Mobile Web Games
韓国 シムさん(同時通訳)
・HTML5モバイルゲームに適用した事例の紹介
・Androidはあんまりすきじゃない
・What Is Animation
少しずつ変化するものを集めたもの
韓国ではタクシーで馬が走るのがあった
必要なもの
リソースマネージメント
→イメージの管理
→ゲームではローディング画面を出しても待ってくれる
オブジェクト化
DOMはオブジェクトを持っているけど、
CANVASはオブジェクトを持ってない
→自分でオブジェクト化する必要がある
アニメーション
CSSトレーション、タイマー使えない
(多数のタイマーは干渉する)
レンダリングパイプラインを使う
ティっク1秒に60回
モニターが60Hzだから60FPSが最適
20FPS以上必要
リクエストアニメーションフレームも使える
→ios6から
ドローイング
キャンバスを消す方法
ClearRect
スプライトアニメーション
IOS4:ピクセルの操作→演算が走る
座標
小数点の座標:
自動的にアンチエイリアシングはしり、ぼんやりする
イベント
□より、もうすこし精密な領域が必要
GetImageData:セキュリティ的に外部からもってこれない
→CDNの場合外部からになるケース
ios4とios5の差
GPUアクセラレートの差
→CSS3Dのトランスフォームを使うと、アクセラレートされる
→トランスフォームを使う
→イメージエレメントが必要になってくる
Andriod
断片化がひどい→全部サポート??
Andriod ICSは、CSS3D使える(2.Xは手がない)
→バグがある 2048ピクセル、回転した場合
1秒に60回=100オブジェクトなら、6まん回・・・
Collie
オープンソースにした。
http://jindo.dev.naver.com/collie
■日々進化するHadoopの「今」
NTTデータ Hadoopを7、8年やっている
Hadoop徹底入門
Hadoopを使っている人
会場見た目6割くらいは使っている
2つのコンポーネント
分散ファイルシステム HDFS
大規模分散フレームワーク MapReduce
複数のIAサーバー
大きなデータ:分散
あまり移動せずに処理
分散処理固有の問題:フレームワークで解決
こわれる
遅延
HDFS
マスター:NameNode
スレーブ:DataNode
MapReduce
マスター:JobTracker
スレーブ:TaskTracker
Hadoopは
高速なRDBMSや検索エンジンではない
RDB:IOの量を最小にしようとする
Hadoop:データの管理は行わない
MapReduce:並列して実行
急速に発展するエコシステムがHadoopの魅力のひとつ
Hbase,Hive、Mohout、Pig
→組み合わせるときつい
Hadoopディストリビューション
CDH、HDP
Hadoopの動向
活発に進んでいるが・・・
バーションはやや複雑な状況
Hadoop1.0系(0.20系)
→CDH 3
Hadoop2.0系
→CDH 4
NameNodeHA
Hadoop単体では、SPOFと言われていたNameNodeのHA化
スライドシェアにレポートをおいておいてある
HDFS Federation
Hadoopでボリュームみたいな概念
ブロックストレージとネームスペースの分割
マルチテナントに必要な要素の1つ
YARN(やーん MapReduce2.0)
Hadoop 4000ノードまでしかスケールしない:こまった
→アーキテクチャを変えて10000台へ
MPIなど、MapReduce以外の分散処理も
まとめ
・新バージョンつぎつぎ
・アーキテクチャのも直し
・エコシステムは成長
・いくつかの技術が浸透中
並列分散
機械学習
スケーラビリティ
・Hadoopカンファレンスやります。
■Hbase at Line
・NHNとNaverの話
さいきんNaverまとめ、Line
アメリカでSNSランキング1位
Line
・はじめ:パフォーマンス Redis
・グローバル化:
・スケーラブル
・はじめ:パフォーマンス Redis
中東盛り上がり
→シャーディング、ZooKeeper
・スケーラブル
アジアで盛り上がり!とくに香港
Redisではだめ
ザッカーバース:シェアの法則
Lineカンファレンス:1日10億メッセージと発表
データとスケーラビリティー
Hbase
Cassandra:コンシステンシー
HBase
数百TBを格納可能
Strong コンシステンシー
アドホックにロードバランシング
1つのモデルで1つのROW
→コンシステンシーが1つのROW
RedisからHBaseへ移行
スケーラビリティ ○
障害は・・・X
Hbaseは、火山
リージョンサーバーが死ぬと、ダウンタイム発生
Compaction対策
■OSSで支えられるライブドアの巨大ログ集計 HiveとFluentd
tagomorisさん
・どういうことをやっているかの話
PV/UUの集計
HTTPレスポンスコード時系列変化
レスポンスタイム時系列変化
あれこれ
Webサーバー(数百台)
|
生ログ
|
Fluentd(リアルタイム処理、数十台)
→Graphic
|
HadoopHDFS:Hive Server
集計処理
CDH3u5 + CentOS +JDK5
・Hive
Apacheオープンソースプロダクト
HiveQL(ほぼSQL)
集計、統計でパフォーマンスがよい
RPCを使える(HiveServer経由で)
・Fluentd
オープンソース
構造化ログ収集用ソフトウェア
Map:片っ端から処理できる
→fluentdも片っ端から処理できる
・集計クエリの登録と実行
shib
Hiveクエリを実行する口
・なぜ、自分たちで作るか
自分たちで数字が説明できる
追試可能でなければならない
機能と継続性
機能とコンポーネント分離
・機能とコンポーネント分離
Hadoop/HDFS
Hive server
Shib
ShibUI
・機能のアップデート
ミドルウェアの機能アップデート
頻繁にある
UIツールの機能アップデート
・機能向上のための鉄則
頻繁に、ただし全体を壊さずに
→コンポーネント分離
祖結合
小さく、変更内容が追えるツールをOSSでそろえる
・規模の拡大とデプロイの話
規模の拡大
量の拡大(スケールアウト・スケールアップ)
バリエーションの拡大
スケールする:両方に対応できていないと
変更は少なく、追加は容易に
汎用の公開ソフトウェアを可能な限りそのまま使う
デプロイ容易性
・場合によっては、あらゆるところに手をいれる覚悟をしておく
→基本的にはしない
コンセプトの良いOSSを選んで使う
グラフ HR for Cast
■Data Scientistの立場から見るHadoop利用
トレジャーデータの人。
MongoDBの人
思考フロー:処理フローと逆
・ゴールの設定
・ツールの選択
・中間データ形式の選択
・Hadoopの活用
どんな動物を選ぶか!(象とか豚とか)
Hiveが使いやすくていいかな・・・
・トレンドの話
インタラクティブ処理
→Hadoopファミリはバッチ処理
Dremei
HIVE
・モニタリング
・JDBC,ODBCドライバ
・R/Excel/SPSS
モニタリング
・KPIの観測
・異常通知
→1つ1つのパネルにクエリを入れる
BI
・さまざまな切り口
Excelのピボットテーブル
・キューブという概念
それぞれのディメンジョンには深さがある
→集計値を持っておく
MR CUBEというアルゴリズム
→Pigでも実装提案
・Tableau
Googleの技術
・アドホック技術 3つのプロジェクト
・Tenjing
Hiveっぽい。MapReduce強化
・Dremel
独自フォーマット、高速に結果を返す
BigQuery
・PowerDrill
裏側で大規模集計
「Hな話」ということで、5つお話を聞いてきた。その後
「Hなプレゼント」ということで、HBaseの本、3名様に抽選で!
ということで、「抽選君」で抽選をしました。
そしたらなんと、あたりました!
HBaseの本Get!!
それはさておき、聞いてきた話のメモメモ
■HTML5 Animation in Mobile Web Games
韓国 シムさん(同時通訳)
・HTML5モバイルゲームに適用した事例の紹介
・Androidはあんまりすきじゃない
・What Is Animation
少しずつ変化するものを集めたもの
韓国ではタクシーで馬が走るのがあった
必要なもの
リソースマネージメント
→イメージの管理
→ゲームではローディング画面を出しても待ってくれる
オブジェクト化
DOMはオブジェクトを持っているけど、
CANVASはオブジェクトを持ってない
→自分でオブジェクト化する必要がある
アニメーション
CSSトレーション、タイマー使えない
(多数のタイマーは干渉する)
レンダリングパイプラインを使う
ティっク1秒に60回
モニターが60Hzだから60FPSが最適
20FPS以上必要
リクエストアニメーションフレームも使える
→ios6から
ドローイング
キャンバスを消す方法
ClearRect
スプライトアニメーション
IOS4:ピクセルの操作→演算が走る
座標
小数点の座標:
自動的にアンチエイリアシングはしり、ぼんやりする
イベント
□より、もうすこし精密な領域が必要
GetImageData:セキュリティ的に外部からもってこれない
→CDNの場合外部からになるケース
ios4とios5の差
GPUアクセラレートの差
→CSS3Dのトランスフォームを使うと、アクセラレートされる
→トランスフォームを使う
→イメージエレメントが必要になってくる
Andriod
断片化がひどい→全部サポート??
Andriod ICSは、CSS3D使える(2.Xは手がない)
→バグがある 2048ピクセル、回転した場合
1秒に60回=100オブジェクトなら、6まん回・・・
Collie
オープンソースにした。
http://jindo.dev.naver.com/collie
■日々進化するHadoopの「今」
NTTデータ Hadoopを7、8年やっている
Hadoop徹底入門
Hadoopを使っている人
会場見た目6割くらいは使っている
2つのコンポーネント
分散ファイルシステム HDFS
大規模分散フレームワーク MapReduce
複数のIAサーバー
大きなデータ:分散
あまり移動せずに処理
分散処理固有の問題:フレームワークで解決
こわれる
遅延
HDFS
マスター:NameNode
スレーブ:DataNode
MapReduce
マスター:JobTracker
スレーブ:TaskTracker
Hadoopは
高速なRDBMSや検索エンジンではない
RDB:IOの量を最小にしようとする
Hadoop:データの管理は行わない
MapReduce:並列して実行
急速に発展するエコシステムがHadoopの魅力のひとつ
Hbase,Hive、Mohout、Pig
→組み合わせるときつい
Hadoopディストリビューション
CDH、HDP
Hadoopの動向
活発に進んでいるが・・・
バーションはやや複雑な状況
Hadoop1.0系(0.20系)
→CDH 3
Hadoop2.0系
→CDH 4
NameNodeHA
Hadoop単体では、SPOFと言われていたNameNodeのHA化
スライドシェアにレポートをおいておいてある
HDFS Federation
Hadoopでボリュームみたいな概念
ブロックストレージとネームスペースの分割
マルチテナントに必要な要素の1つ
YARN(やーん MapReduce2.0)
Hadoop 4000ノードまでしかスケールしない:こまった
→アーキテクチャを変えて10000台へ
MPIなど、MapReduce以外の分散処理も
まとめ
・新バージョンつぎつぎ
・アーキテクチャのも直し
・エコシステムは成長
・いくつかの技術が浸透中
並列分散
機械学習
スケーラビリティ
・Hadoopカンファレンスやります。
■Hbase at Line
・NHNとNaverの話
さいきんNaverまとめ、Line
アメリカでSNSランキング1位
Line
・はじめ:パフォーマンス Redis
・グローバル化:
・スケーラブル
・はじめ:パフォーマンス Redis
中東盛り上がり
→シャーディング、ZooKeeper
・スケーラブル
アジアで盛り上がり!とくに香港
Redisではだめ
ザッカーバース:シェアの法則
Lineカンファレンス:1日10億メッセージと発表
データとスケーラビリティー
Hbase
Cassandra:コンシステンシー
HBase
数百TBを格納可能
Strong コンシステンシー
アドホックにロードバランシング
1つのモデルで1つのROW
→コンシステンシーが1つのROW
RedisからHBaseへ移行
スケーラビリティ ○
障害は・・・X
Hbaseは、火山
リージョンサーバーが死ぬと、ダウンタイム発生
Compaction対策
■OSSで支えられるライブドアの巨大ログ集計 HiveとFluentd
tagomorisさん
・どういうことをやっているかの話
PV/UUの集計
HTTPレスポンスコード時系列変化
レスポンスタイム時系列変化
あれこれ
Webサーバー(数百台)
|
生ログ
|
Fluentd(リアルタイム処理、数十台)
→Graphic
|
HadoopHDFS:Hive Server
集計処理
CDH3u5 + CentOS +JDK5
・Hive
Apacheオープンソースプロダクト
HiveQL(ほぼSQL)
集計、統計でパフォーマンスがよい
RPCを使える(HiveServer経由で)
・Fluentd
オープンソース
構造化ログ収集用ソフトウェア
Map:片っ端から処理できる
→fluentdも片っ端から処理できる
・集計クエリの登録と実行
shib
Hiveクエリを実行する口
・なぜ、自分たちで作るか
自分たちで数字が説明できる
追試可能でなければならない
機能と継続性
機能とコンポーネント分離
・機能とコンポーネント分離
Hadoop/HDFS
Hive server
Shib
ShibUI
・機能のアップデート
ミドルウェアの機能アップデート
頻繁にある
UIツールの機能アップデート
・機能向上のための鉄則
頻繁に、ただし全体を壊さずに
→コンポーネント分離
祖結合
小さく、変更内容が追えるツールをOSSでそろえる
・規模の拡大とデプロイの話
規模の拡大
量の拡大(スケールアウト・スケールアップ)
バリエーションの拡大
スケールする:両方に対応できていないと
変更は少なく、追加は容易に
汎用の公開ソフトウェアを可能な限りそのまま使う
デプロイ容易性
・場合によっては、あらゆるところに手をいれる覚悟をしておく
→基本的にはしない
コンセプトの良いOSSを選んで使う
グラフ HR for Cast
■Data Scientistの立場から見るHadoop利用
トレジャーデータの人。
MongoDBの人
思考フロー:処理フローと逆
・ゴールの設定
・ツールの選択
・中間データ形式の選択
・Hadoopの活用
どんな動物を選ぶか!(象とか豚とか)
Hiveが使いやすくていいかな・・・
・トレンドの話
インタラクティブ処理
→Hadoopファミリはバッチ処理
Dremei
HIVE
・モニタリング
・JDBC,ODBCドライバ
・R/Excel/SPSS
モニタリング
・KPIの観測
・異常通知
→1つ1つのパネルにクエリを入れる
BI
・さまざまな切り口
Excelのピボットテーブル
・キューブという概念
それぞれのディメンジョンには深さがある
→集計値を持っておく
MR CUBEというアルゴリズム
→Pigでも実装提案
・Tableau
Googleの技術
・アドホック技術 3つのプロジェクト
・Tenjing
Hiveっぽい。MapReduce強化
・Dremel
独自フォーマット、高速に結果を返す
BigQuery
・PowerDrill
裏側で大規模集計