ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

データサイエンティストサミット2014に行って来た!-その3 トレジャーデータ流

2014-06-28 20:13:59 | AI・BigData
データサイエンティストサミット2014に行って来た!-その

6月27日、「データサイエンティストサミット2014に行って来た!

次は、
トレジャーデータ流データ分析の始め方

の内容をメモメモ




トレジャーデータ
サービス概要
データサイエンティストの分析プロセス
事例

データサイエンティストがCXOを補佐
この2つのアプローチを兼ね備えた人(チーム)があたら意思経営を支える

トレジャーデータサービス概要
・従業員50人

・データ解析の世界をシンプルにしたい

収集・保存・分析をワンストップに、柔軟なインターフェースで提供
分析レイヤーの詳解
  一気つうかんして、提供
  HIVE

データサイエンティストの分析プロセス
一般的なデータ分析プロセス
 1目的明確化
 2目標設定
 3データ収集
 4データ分析
 5考察仮説
 6プラン
 7Do
 8DataCheck
 9Action
X目的・目標が未設定、さらにデータの内容が分からない
 ゆえに次のデータ分析サイクルをまわせない

トレジャーデータが可能にする分析アプローチ
・目標なくて大丈夫
・とにかくデータを集めましょう
 1.データ収集
 2.DataWatch
 3データ収集
 4データ分析
 5考察仮説
 6プラン
 7Do
 8DataCheck
 9Action

1.データ収集
  ・とにかく集められるログを探してくる
  ・ログがどこにもなければ、簡単なログ収集からはじめる

2.Data Watch
 定型化された3つの見るプロセス
  ・データの項目を見る
     ディメンジョン
     メジャー
  ・データの内訳を見る
  ・データの分布を見る
 ある程度テンプレート化

2.a「項目を見る」
 ディメンジョン・メジャー分類
  データの項目を見る
2.b「内訳を見る」
 集計テンプレートクエリの適用
 内訳可視化テンプレートの適用
2.c「分布を見る」
 分布テンプレートクエリ
 分布可視化テンプレートの適用

まとめ
 データ収集から目標設定までは、ノンストップ行える
BIツール(たぶろーなど)見るところで重要な役割

DataWatchのためのVisualization Tool
データを見ることへの投資→可視化ツールの採用
  ・データの項目を見る
  ・データの内訳を見る
  ・データの分布を見る

トレジャーデータ流:データ分析の始め方(POC)
数ヶ月→何がしたいのか

事例紹介:オンラインゲーム
・オンラインゲームソリューションとは
1.テンプレートに従ったデータ収集
2.データを徹底的に見るためのダッシュボード
3.目標:コンバージョンのボトルネックを調べる
4.分析:ファンネル

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

データサイエンティストサミット2014に行って来た!-その2 LINEの分析プラットフォーム

2014-06-28 16:00:50 | AI・BigData
6月27日、「データサイエンティストサミット2014に行って来た!

次は、
LINEを支える分析プラットフォームとその技術 
講師:LINE 橋本さん

の内容をメモメモ




分析プラットフォーム

データに関するアクション
 Collection データを収集する
 Reporting サービスの状況を報告する
 Analyzing サービスの問題点や改善点を分析する
この解として分析プラットフォーム

分析プラットフォームで重要視していること
 Collection
   リーズナブルなデータの収集→Fluentd
   大量なデータの保持→Hadoop
 Reporting
   柔軟なデータの集計 HIVE/Shib/Norikura
   分かりやすいチャートでの可視化→BIツール
 Analyzing
   簡便で高速なデータの収集→Norikura

分析プラットフォームの概要
 サーバー→fluentd→Fluentd       →IRC
           Norikra(リアル集計)→ダッシュボード
           Hadoop→BIツール
       ↓
      アーカイブ(永久保存)

Fluentd
・柔軟なログ収集を可能にするフレームワーク
  Treasure Data社が開発

Norikra
・リアルタイム集計処理システム
 ストリーミングデータ処理として、SQLが利用可能
  →自社開発、オープンソース

Hadoop
      MR
HJDFS Tez HIVE  Shib(しぶ)
YARN  Presto    ETL(Azkaban)
                Prestogres

Hive
SQLライクなクエリー言語でのデータ集計

Prosto
・分散データ処理エンジン
・HIVEに比べ高速

Prestgres
  BIとPrestoをつなぐ
  Treasure Dataが開発

Shib
  Hive、Prostoへのバッチ処理

Shibui

・API連携しやすいように
  HTTP JSON API
・なるべくOSSを採用する
  なにかあったときは、じぶんたちで

注目している
・データ抽出の高速化技術
  Presto,Impara,TeZz,spark,Drill
  いんめもりDBS/DWH

・分析プラットフォーム

大事なこと
・データ生成・収集のコストを下げる
   極力、サービス開発者にデータ集計させない
   エンジニアの工数は大事
・データの受け皿を用意する
・倫理的なことを考える

一緒に開発してくれる人大募集

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

「突然ITインフラを任された人のための…監視設計入門」聞きたかっらた「いいね!」?

2014-06-28 08:54:56 | Weblog

突然ITインフラを任された人のための…監視設計入門
http://yapcasia.org/2014/talk/show/d1eb4942-fdb5-11e3-b7e8-e4a96aeab6a4


おお、聞きたい!

と思ったら、保留中ということのようだけど・・・

「いいね!」とか、ツイートすると、やってくれるのかなあ?

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする