2014年6月28日のブログ記事一覧-ウィリアムのいたずらの、まちあるき、たべあるき

データサイエンティストサミット２０１４に行って来た！－その3 トレジャーデータ流

2014-06-28 20:13:59 | AI・BigData

データサイエンティストサミット２０１４に行って来た！－その

6月27日、「データサイエンティストサミット２０１４に行って来た！

次は、
トレジャーデータ流データ分析の始め方

の内容をメモメモ

トレジャーデータ
サービス概要
データサイエンティストの分析プロセス
事例

データサイエンティストがＣＸＯを補佐
この２つのアプローチを兼ね備えた人（チーム）があたら意思経営を支える

トレジャーデータサービス概要
・従業員５０人

・データ解析の世界をシンプルにしたい

収集・保存・分析をワンストップに、柔軟なインターフェースで提供
分析レイヤーの詳解
　　一気つうかんして、提供
　　ＨＩＶＥ

データサイエンティストの分析プロセス
一般的なデータ分析プロセス
　１目的明確化
　２目標設定
　３データ収集
　４データ分析
　５考察仮説
　６プラン
　７Ｄｏ
　８ＤａｔａＣｈｅｃｋ
　９Ａｃｔｉｏｎ
Ｘ目的・目標が未設定、さらにデータの内容が分からない
　ゆえに次のデータ分析サイクルをまわせない

トレジャーデータが可能にする分析アプローチ
・目標なくて大丈夫
・とにかくデータを集めましょう
　１．データ収集
　２．ＤａｔａＷａｔｃｈ
　３データ収集
　４データ分析
　５考察仮説
　６プラン
　７Ｄｏ
　８ＤａｔａＣｈｅｃｋ
　９Ａｃｔｉｏｎ

１．データ収集
　　・とにかく集められるログを探してくる
　　・ログがどこにもなければ、簡単なログ収集からはじめる

２．Data Watch
　定型化された３つの見るプロセス
　　・データの項目を見る
　　　　　ディメンジョン
　　　　　メジャー
　　・データの内訳を見る
　　・データの分布を見る
　ある程度テンプレート化

2.a「項目を見る」
　ディメンジョン・メジャー分類
　　データの項目を見る
2.b「内訳を見る」
　集計テンプレートクエリの適用
　内訳可視化テンプレートの適用
2.c「分布を見る」
　分布テンプレートクエリ
　分布可視化テンプレートの適用

まとめ
　データ収集から目標設定までは、ノンストップ行える
ＢＩツール（たぶろーなど）見るところで重要な役割

DataWatchのためのVisualization Tool
データを見ることへの投資→可視化ツールの採用
　　・データの項目を見る
　　・データの内訳を見る
　　・データの分布を見る

トレジャーデータ流：データ分析の始め方（ＰＯＣ）
数ヶ月→何がしたいのか

事例紹介：オンラインゲーム
・オンラインゲームソリューションとは
１．テンプレートに従ったデータ収集
２．データを徹底的に見るためのダッシュボード
３．目標：コンバージョンのボトルネックを調べる
４．分析：ファンネル

ランキングに参加中。クリックして応援お願いします！

データサイエンティストサミット２０１４に行って来た！－その２　ＬＩＮＥの分析プラットフォーム

2014-06-28 16:00:50 | AI・BigData

6月27日、「データサイエンティストサミット２０１４に行って来た！

次は、
LINEを支える分析プラットフォームとその技術　
講師：ＬＩＮＥ　橋本さん

の内容をメモメモ

分析プラットフォーム

データに関するアクション
　Ｃｏｌｌｅｃｔｉｏｎ　データを収集する
　Ｒｅｐｏｒｔｉｎｇ　サービスの状況を報告する
　Ａｎａｌｙｚｉｎｇ　サービスの問題点や改善点を分析する
この解として分析プラットフォーム

分析プラットフォームで重要視していること
　Ｃｏｌｌｅｃｔｉｏｎ
　　　リーズナブルなデータの収集→Fluentd
　　　大量なデータの保持→Hadoop
　Ｒｅｐｏｒｔｉｎｇ
　　　柔軟なデータの集計 HIVE/Shib/Norikura
　　　分かりやすいチャートでの可視化→ＢＩツール
　Ａｎａｌｙｚｉｎｇ
　　　簡便で高速なデータの収集→Norikura

分析プラットフォームの概要
　サーバー→fluentd→Fluentd　　　　　　　→ＩＲＣ
　　　　　　　　　　　Norikra（リアル集計）→ダッシュボード
　　　　　　　　　　　Hadoop→ＢＩツール
　　　　　　　↓
　　　　　　アーカイブ（永久保存）

Ｆｌｕｅｎｔｄ
・柔軟なログ収集を可能にするフレームワーク
　　Treasure Data社が開発

Ｎｏｒｉｋｒａ
・リアルタイム集計処理システム
　ストリーミングデータ処理として、ＳＱＬが利用可能
　　→自社開発、オープンソース

Ｈａｄｏｏｐ
　　　　　　ＭＲ
ＨＪＤＦＳ　Ｔｅｚ　ＨＩＶＥ　　Ｓｈｉｂ（しぶ）
ＹＡＲＮ　　Ｐｒｅｓｔｏ　　　　ＥＴＬ（Azkaban)
　　　　　　　　　　　　　　　　Prestogres

Ｈｉｖｅ
ＳＱＬライクなクエリー言語でのデータ集計

Ｐｒｏｓｔｏ
・分散データ処理エンジン
・ＨＩＶＥに比べ高速

Ｐｒｅｓｔｇｒｅｓ
　　ＢＩとＰｒｅｓｔｏをつなぐ
　　Treasure Dataが開発

Ｓｈｉｂ
　　Hive、Prostoへのバッチ処理

Shibui

・ＡＰＩ連携しやすいように
　　ＨＴＴＰ　ＪＳＯＮ　ＡＰＩ
・なるべくＯＳＳを採用する
　　なにかあったときは、じぶんたちで

注目している
・データ抽出の高速化技術
　　Presto,Impara,TeZz,spark,Drill
　　いんめもりＤＢＳ／ＤＷＨ

・分析プラットフォーム

大事なこと
・データ生成・収集のコストを下げる
　　　極力、サービス開発者にデータ集計させない
　　　エンジニアの工数は大事
・データの受け皿を用意する
・倫理的なことを考える

一緒に開発してくれる人大募集

ランキングに参加中。クリックして応援お願いします！

「突然ITインフラを任された人のための…監視設計入門」聞きたかっらた「いいね！」？

2014-06-28 08:54:56 | Weblog

突然ITインフラを任された人のための…監視設計入門
http://yapcasia.org/2014/talk/show/d1eb4942-fdb5-11e3-b7e8-e4a96aeab6a4

おお、聞きたい！

と思ったら、保留中ということのようだけど・・・

「いいね！」とか、ツイートすると、やってくれるのかなあ？

ランキングに参加中。クリックして応援お願いします！

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

アクセス
閲覧	1,398	PV
訪問者	674	IP
トータル
閲覧	34,636,293	PV
訪問者	8,584,589	IP
ランキング
日別	838	位
週別	416	位

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】goo blogスタッフの気になったニュース
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

データサイエンティストサミット２０１４に行って来た！－その3 トレジャーデータ流

データサイエンティストサミット２０１４に行って来た！－その２　ＬＩＮＥの分析プラットフォーム

「突然ITインフラを任された人のための…監視設計入門」聞きたかっらた「いいね！」？

カレンダー

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

データサイエンティストサミット２０１４に行って来た！－その3 トレジャーデータ流

データサイエンティストサミット２０１４に行って来た！－その２ ＬＩＮＥの分析プラットフォーム

「突然ITインフラを任された人のための…監視設計入門」聞きたかっらた「いいね！」？

カレンダー

ログイン

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ

データサイエンティストサミット２０１４に行って来た！－その２　ＬＩＮＥの分析プラットフォーム