グリーを支えるデータ分析基盤の過去と現在

2014-02-16 10:19:02 | トピックス

デブサミ２０１４に行ってきた！シリーズ

２月１４日のB2セッション

グリーを支えるデータ分析基盤の過去と現在

を聞いてきたので、メモメモ

■自己紹介
東工大（博士）→助手＆特任准教授→グリー

■過去の話
２０１１年：ログデータなど
Webサーバー→ストレージ→バッチ→一部MuySQLにはいる
→集計結果を

２０１２年
Analytics DB（生データ）
　　→アドホックな分析

だんだん困った
・データをほしい人が増えてきた
　　理由：サービスが増えた、人が増えた
・データ提供が正直しんどくなってきた

■今の話
・コンセプト
　アクセサビリティ
　　　誰でも自由に
　スケーラビリティ
　　　どれだけ溜め込んでも

・ゲーム
　　・トレジャーデータベース
　　　ゲームへのアクセスログ

　　・Gree Platform
　　　　Hadoopベース
　　　　　ゲームからAPIのログ
　　　　　ユーザー情報

・ゲームのデータ分析基盤
　　Treasure Dataベース
・Hadoopクラスタ構築不要
・ログのコレクトからストアまで
　　fluentdのぷラフイン
・スキーマレス：ゲームは変わりやすい
　　time int v map<string ,string>
・データウェアハウス
・BIツール

基本構成
　　Web サーバー（fluentd）→ログ・アグリゲータであつめて→とレジャーさんへ

ダッシュボードを使って通知

データを使って何をやるか大事
・ログデータをゲームカイゼンのアクションにつなげる
　　・アクセス遷移分析
　　　　・Webサイト分析では、一般的な手法を
　　　　　ソーシャルゲームに導入

・ジョブ管理をしっかりする
　　・ジョブ管理ツール

アクセス遷移分析
・ページ遷移
　　起点のページから何割のユーザーが目的のページへ
・離脱
　　離脱率の高いステップは？
・クリック

事例
・ページ遷移分析：スムーズに？可視化
・離脱分析：ページ遷移＋ユーザーセグメント
・クリック分析：UI,UXのカイゼンに
　　→実画面の上に載せる（spanタグで）
　　ランキング：どれくらいクリックされるかを、オーバーレイ
・ジョブ管理ツール
　　ユーザーに公開：遅いクエリー投げられる
　　とれじゃーさんのAPIで
　　　→ジョブ可視化、killできる
　　クエリ実行の際に送信者を自動付与
　　式一以上時間のかかっているジョブの統計と一覧を表示

まとめ
・バックエンドはトレジャーさんつかってます
・ログデータをゲームカイゼンのアクションに
　　・アクセス遷移分析
・ジョブ管理をしっかりする
　　・ジョブ管理ツール

＜＜Gree　Platform>>
・Hadoopベース
　　データベースサーバー　fkuentdで流し込む
　　DBから、とりこむ
　　WebHDFS,HDFS
　　MR
　　Hive Presto Macaron
　　azkaban

・JDK7+CDH4+A派ちぇHive（V0.12+α）
　　・HiveServer2
　　・追加パッチ
　　　　Kryo

・独自拡張
　　・社内認証システムとの連携
　　・auto-load extra UDFs

・利用状況
　　５０００ジョブ／日
　　６０TB（圧縮した状態、レプリカ除く）
　　１００ユーザー（ほとんどが非エンジニア）

・データへのアクセス方法
　　直接アクセス
　　　SQuirreLSQL
　　　JDBC,ODBC接続できるものなら
　　グラフ化
　　　Macaron（自社製）
　　その他
　　　Shell,Python,R,PHP
　　　→Thriftのおかげ

・SQuirrlSQL
・Macaron
　　データのグラフ化
　　RDB/Hiveに対応
　　キャッシュ機能
　　出力：画像、HTML
・Ruby Scripting in Hive Query Language
　　HQLの中にRubyのコードを埋め込む
　　　→HQL（SQL)で書きにくいクエリを処理できる

・データのインポート
　　ログデータのインポート
　　　　ハイブリッド：Bulk copy＋Streaming log events
　　　　Fluentd&WebHDFS(まだ不安定）

　　MySQLからのインポート：db-express
　　　・SQoopのラッパー
　　　・Cooperation w/in-house DSN catalog
　　　・Parallel import Shared DB/Tables

　　手動インポート
　　　ブラウザからアップデート

まとめ
　Greeプラットホームは、Hadoopをベースに自作

■近い未来の話

コンセプト
　　より速く
　　より高度に　

機能
　　ダッシュボードBI
　　データカタログ
　　ジョブ管理、ワークフロー
　　クエリ：Spark
　　分散処理：presto
　　分散ファイルシステム　

YARN
　　リソース管理をやりやすく
　　Spark

Presto http://prestodb.io/
・OSSな分散SQLエンジン
　　　Hiveよりも早い（パフォーマンス的にはimpala）
　　　FaceBookが開発
　なせ、impalaにしない
　　→メモリの使い方
　　　Presto：社内環境に合わせるのに、ソースオープンなのでメリット

Spark
　データ処理フレームワーク
　MRより早い（非同期のMR)
　　機械学習で最適

アクセサビリティ、スケーラビリティ
　　ゲーム：とれじゃーさん
　　プラットホーム：Hadoop

スピーディ、インテリジェントリー
　　クエリの高速化
　　機械学習を利用したデータの活用

ランキングに参加中。クリックして応援お願いします！

日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

アクセス
閲覧	1,452	PV
訪問者	936	IP
トータル
閲覧	34,361,344	PV
訪問者	8,435,046	IP
ランキング
日別	345	位
週別	455	位

	goo blogは20周年を迎えました！
	訪問者数に応じてdポイント最大1,000pt当たる！
	皆さんにおすすめしたい人気ブログをご紹介
	今週のお題「#ガーデニング」をチェック

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）