ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

グリーを支えるデータ分析基盤の過去と現在

2014-02-16 10:19:02 | トピックス
デブサミ2014に行ってきた!シリーズ

2月14日のB2セッション

グリーを支えるデータ分析基盤の過去と現在

を聞いてきたので、メモメモ




■自己紹介
東工大(博士)→助手&特任准教授→グリー

■過去の話
2011年:ログデータなど
Webサーバー→ストレージ→バッチ→一部MuySQLにはいる
→集計結果を

2012年
Analytics DB(生データ)
  →アドホックな分析

だんだん困った
・データをほしい人が増えてきた
  理由:サービスが増えた、人が増えた
・データ提供が正直しんどくなってきた

■今の話
・コンセプト
 アクセサビリティ
   誰でも自由に
 スケーラビリティ
   どれだけ溜め込んでも

・ゲーム
  ・トレジャーデータベース
   ゲームへのアクセスログ

  ・Gree Platform
    Hadoopベース
     ゲームからAPIのログ
     ユーザー情報

・ゲームのデータ分析基盤
  Treasure Dataベース
・Hadoopクラスタ構築不要
・ログのコレクトからストアまで
  fluentdのぷラフイン
・スキーマレス:ゲームは変わりやすい
  time int v map<string ,string>
・データウェアハウス
・BIツール

基本構成
  Web サーバー(fluentd)→ログ・アグリゲータであつめて→とレジャーさんへ

ダッシュボードを使って通知

データを使って何をやるか大事
・ログデータをゲームカイゼンのアクションにつなげる
  ・アクセス遷移分析
    ・Webサイト分析では、一般的な手法を
     ソーシャルゲームに導入

・ジョブ管理をしっかりする
  ・ジョブ管理ツール

アクセス遷移分析
・ページ遷移
  起点のページから何割のユーザーが目的のページへ
・離脱
  離脱率の高いステップは?
・クリック

事例
・ページ遷移分析:スムーズに?可視化
・離脱分析:ページ遷移+ユーザーセグメント
・クリック分析:UI,UXのカイゼンに
  →実画面の上に載せる(spanタグで)
  ランキング:どれくらいクリックされるかを、オーバーレイ
・ジョブ管理ツール
  ユーザーに公開:遅いクエリー投げられる
  とれじゃーさんのAPIで
   →ジョブ可視化、killできる
  クエリ実行の際に送信者を自動付与
  式一以上時間のかかっているジョブの統計と一覧を表示

まとめ
・バックエンドはトレジャーさんつかってます
・ログデータをゲームカイゼンのアクションに
  ・アクセス遷移分析
・ジョブ管理をしっかりする
  ・ジョブ管理ツール

<<Gree Platform>>
・Hadoopベース
  データベースサーバー fkuentdで流し込む
  DBから、とりこむ
  WebHDFS,HDFS
  MR
  Hive Presto Macaron
  azkaban

・JDK7+CDH4+A派ちぇHive(V0.12+α)
  ・HiveServer2
  ・追加パッチ
    Kryo

・独自拡張
  ・社内認証システムとの連携
  ・auto-load extra UDFs

・利用状況
  5000ジョブ/日
  60TB(圧縮した状態、レプリカ除く)
  100ユーザー(ほとんどが非エンジニア)

・データへのアクセス方法
  直接アクセス
   SQuirreLSQL
   JDBC,ODBC接続できるものなら
  グラフ化
   Macaron(自社製)
  その他
   Shell,Python,R,PHP
   →Thriftのおかげ

・SQuirrlSQL
・Macaron
  データのグラフ化
  RDB/Hiveに対応
  キャッシュ機能
  出力:画像、HTML
・Ruby Scripting in Hive Query Language
  HQLの中にRubyのコードを埋め込む
   →HQL(SQL)で書きにくいクエリを処理できる

・データのインポート
  ログデータのインポート
    ハイブリッド:Bulk copy+Streaming log events
    Fluentd&WebHDFS(まだ不安定)

  MySQLからのインポート:db-express
   ・SQoopのラッパー
   ・Cooperation w/in-house DSN catalog
   ・Parallel import Shared DB/Tables

  手動インポート
   ブラウザからアップデート

まとめ
 Greeプラットホームは、Hadoopをベースに自作


■近い未来の話

コンセプト
  より速く
  より高度に 

機能
  ダッシュボードBI
  データカタログ
  ジョブ管理、ワークフロー
  クエリ:Spark
  分散処理:presto
  分散ファイルシステム 

YARN
  リソース管理をやりやすく
  Spark

Presto http://prestodb.io/
・OSSな分散SQLエンジン
   Hiveよりも早い(パフォーマンス的にはimpala)
   FaceBookが開発
 なせ、impalaにしない
  →メモリの使い方
   Presto:社内環境に合わせるのに、ソースオープンなのでメリット

Spark
 データ処理フレームワーク
 MRより早い(非同期のMR)
  機械学習で最適

アクセサビリティ、スケーラビリティ
  ゲーム:とれじゃーさん
  プラットホーム:Hadoop

スピーディ、インテリジェントリー
  クエリの高速化
  機械学習を利用したデータの活用

この記事についてブログを書く
  • Twitterでシェアする
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« mBaaS(モバイル・バックエン... | トップ | WebサイトセキュリティとSSL... »
最新の画像もっと見る

トピックス」カテゴリの最新記事