デブサミ2014に行ってきた!シリーズ
2月14日のB2セッション
グリーを支えるデータ分析基盤の過去と現在
を聞いてきたので、メモメモ
■自己紹介
東工大(博士)→助手&特任准教授→グリー
■過去の話
2011年:ログデータなど
Webサーバー→ストレージ→バッチ→一部MuySQLにはいる
→集計結果を
2012年
Analytics DB(生データ)
→アドホックな分析
だんだん困った
・データをほしい人が増えてきた
理由:サービスが増えた、人が増えた
・データ提供が正直しんどくなってきた
■今の話
・コンセプト
アクセサビリティ
誰でも自由に
スケーラビリティ
どれだけ溜め込んでも
・ゲーム
・トレジャーデータベース
ゲームへのアクセスログ
・Gree Platform
Hadoopベース
ゲームからAPIのログ
ユーザー情報
・ゲームのデータ分析基盤
Treasure Dataベース
・Hadoopクラスタ構築不要
・ログのコレクトからストアまで
fluentdのぷラフイン
・スキーマレス:ゲームは変わりやすい
time int v map<string ,string>
・データウェアハウス
・BIツール
基本構成
Web サーバー(fluentd)→ログ・アグリゲータであつめて→とレジャーさんへ
ダッシュボードを使って通知
データを使って何をやるか大事
・ログデータをゲームカイゼンのアクションにつなげる
・アクセス遷移分析
・Webサイト分析では、一般的な手法を
ソーシャルゲームに導入
・ジョブ管理をしっかりする
・ジョブ管理ツール
アクセス遷移分析
・ページ遷移
起点のページから何割のユーザーが目的のページへ
・離脱
離脱率の高いステップは?
・クリック
事例
・ページ遷移分析:スムーズに?可視化
・離脱分析:ページ遷移+ユーザーセグメント
・クリック分析:UI,UXのカイゼンに
→実画面の上に載せる(spanタグで)
ランキング:どれくらいクリックされるかを、オーバーレイ
・ジョブ管理ツール
ユーザーに公開:遅いクエリー投げられる
とれじゃーさんのAPIで
→ジョブ可視化、killできる
クエリ実行の際に送信者を自動付与
式一以上時間のかかっているジョブの統計と一覧を表示
まとめ
・バックエンドはトレジャーさんつかってます
・ログデータをゲームカイゼンのアクションに
・アクセス遷移分析
・ジョブ管理をしっかりする
・ジョブ管理ツール
<<Gree Platform>>
・Hadoopベース
データベースサーバー fkuentdで流し込む
DBから、とりこむ
WebHDFS,HDFS
MR
Hive Presto Macaron
azkaban
・JDK7+CDH4+A派ちぇHive(V0.12+α)
・HiveServer2
・追加パッチ
Kryo
・独自拡張
・社内認証システムとの連携
・auto-load extra UDFs
・利用状況
5000ジョブ/日
60TB(圧縮した状態、レプリカ除く)
100ユーザー(ほとんどが非エンジニア)
・データへのアクセス方法
直接アクセス
SQuirreLSQL
JDBC,ODBC接続できるものなら
グラフ化
Macaron(自社製)
その他
Shell,Python,R,PHP
→Thriftのおかげ
・SQuirrlSQL
・Macaron
データのグラフ化
RDB/Hiveに対応
キャッシュ機能
出力:画像、HTML
・Ruby Scripting in Hive Query Language
HQLの中にRubyのコードを埋め込む
→HQL(SQL)で書きにくいクエリを処理できる
・データのインポート
ログデータのインポート
ハイブリッド:Bulk copy+Streaming log events
Fluentd&WebHDFS(まだ不安定)
MySQLからのインポート:db-express
・SQoopのラッパー
・Cooperation w/in-house DSN catalog
・Parallel import Shared DB/Tables
手動インポート
ブラウザからアップデート
まとめ
Greeプラットホームは、Hadoopをベースに自作
■近い未来の話
コンセプト
より速く
より高度に
機能
ダッシュボードBI
データカタログ
ジョブ管理、ワークフロー
クエリ:Spark
分散処理:presto
分散ファイルシステム
YARN
リソース管理をやりやすく
Spark
Presto http://prestodb.io/
・OSSな分散SQLエンジン
Hiveよりも早い(パフォーマンス的にはimpala)
FaceBookが開発
なせ、impalaにしない
→メモリの使い方
Presto:社内環境に合わせるのに、ソースオープンなのでメリット
Spark
データ処理フレームワーク
MRより早い(非同期のMR)
機械学習で最適
アクセサビリティ、スケーラビリティ
ゲーム:とれじゃーさん
プラットホーム:Hadoop
スピーディ、インテリジェントリー
クエリの高速化
機械学習を利用したデータの活用
2月14日のB2セッション
グリーを支えるデータ分析基盤の過去と現在
を聞いてきたので、メモメモ
■自己紹介
東工大(博士)→助手&特任准教授→グリー
■過去の話
2011年:ログデータなど
Webサーバー→ストレージ→バッチ→一部MuySQLにはいる
→集計結果を
2012年
Analytics DB(生データ)
→アドホックな分析
だんだん困った
・データをほしい人が増えてきた
理由:サービスが増えた、人が増えた
・データ提供が正直しんどくなってきた
■今の話
・コンセプト
アクセサビリティ
誰でも自由に
スケーラビリティ
どれだけ溜め込んでも
・ゲーム
・トレジャーデータベース
ゲームへのアクセスログ
・Gree Platform
Hadoopベース
ゲームからAPIのログ
ユーザー情報
・ゲームのデータ分析基盤
Treasure Dataベース
・Hadoopクラスタ構築不要
・ログのコレクトからストアまで
fluentdのぷラフイン
・スキーマレス:ゲームは変わりやすい
time int v map<string ,string>
・データウェアハウス
・BIツール
基本構成
Web サーバー(fluentd)→ログ・アグリゲータであつめて→とレジャーさんへ
ダッシュボードを使って通知
データを使って何をやるか大事
・ログデータをゲームカイゼンのアクションにつなげる
・アクセス遷移分析
・Webサイト分析では、一般的な手法を
ソーシャルゲームに導入
・ジョブ管理をしっかりする
・ジョブ管理ツール
アクセス遷移分析
・ページ遷移
起点のページから何割のユーザーが目的のページへ
・離脱
離脱率の高いステップは?
・クリック
事例
・ページ遷移分析:スムーズに?可視化
・離脱分析:ページ遷移+ユーザーセグメント
・クリック分析:UI,UXのカイゼンに
→実画面の上に載せる(spanタグで)
ランキング:どれくらいクリックされるかを、オーバーレイ
・ジョブ管理ツール
ユーザーに公開:遅いクエリー投げられる
とれじゃーさんのAPIで
→ジョブ可視化、killできる
クエリ実行の際に送信者を自動付与
式一以上時間のかかっているジョブの統計と一覧を表示
まとめ
・バックエンドはトレジャーさんつかってます
・ログデータをゲームカイゼンのアクションに
・アクセス遷移分析
・ジョブ管理をしっかりする
・ジョブ管理ツール
<<Gree Platform>>
・Hadoopベース
データベースサーバー fkuentdで流し込む
DBから、とりこむ
WebHDFS,HDFS
MR
Hive Presto Macaron
azkaban
・JDK7+CDH4+A派ちぇHive(V0.12+α)
・HiveServer2
・追加パッチ
Kryo
・独自拡張
・社内認証システムとの連携
・auto-load extra UDFs
・利用状況
5000ジョブ/日
60TB(圧縮した状態、レプリカ除く)
100ユーザー(ほとんどが非エンジニア)
・データへのアクセス方法
直接アクセス
SQuirreLSQL
JDBC,ODBC接続できるものなら
グラフ化
Macaron(自社製)
その他
Shell,Python,R,PHP
→Thriftのおかげ
・SQuirrlSQL
・Macaron
データのグラフ化
RDB/Hiveに対応
キャッシュ機能
出力:画像、HTML
・Ruby Scripting in Hive Query Language
HQLの中にRubyのコードを埋め込む
→HQL(SQL)で書きにくいクエリを処理できる
・データのインポート
ログデータのインポート
ハイブリッド:Bulk copy+Streaming log events
Fluentd&WebHDFS(まだ不安定)
MySQLからのインポート:db-express
・SQoopのラッパー
・Cooperation w/in-house DSN catalog
・Parallel import Shared DB/Tables
手動インポート
ブラウザからアップデート
まとめ
Greeプラットホームは、Hadoopをベースに自作
■近い未来の話
コンセプト
より速く
より高度に
機能
ダッシュボードBI
データカタログ
ジョブ管理、ワークフロー
クエリ:Spark
分散処理:presto
分散ファイルシステム
YARN
リソース管理をやりやすく
Spark
Presto http://prestodb.io/
・OSSな分散SQLエンジン
Hiveよりも早い(パフォーマンス的にはimpala)
FaceBookが開発
なせ、impalaにしない
→メモリの使い方
Presto:社内環境に合わせるのに、ソースオープンなのでメリット
Spark
データ処理フレームワーク
MRより早い(非同期のMR)
機械学習で最適
アクセサビリティ、スケーラビリティ
ゲーム:とれじゃーさん
プラットホーム:Hadoop
スピーディ、インテリジェントリー
クエリの高速化
機械学習を利用したデータの活用