2015年5月13日のブログ記事一覧-ウィリアムのいたずらの、まちあるき、たべあるき

機械学習のライブラリHivemallのMeetupに行ってきた！

2015-05-13 09:58:32 | AI・BigData

第一回Hivemall

Meetupに行ってきた

その内容（前半）をメモメモ

Hivemallの機能紹介
とれじゃーでーた油井さん

自己紹介
NAIST→AIST→とれじゃー

数字でみるトレジャーデータ
１００社以上
１５兆
１秒間５０万レコード

Hivemallとは
Apache Hadoopエコシステム上に構築した
オープンソースの機械学習ライブラリ
https://github.com/myui/h

ivemall

MapReduce and DAGエンジン

特徴
　ＳＱＬベースの宣言的かつ容易な記述
　mahoutよりもかんたんに

提供している機能
　クラス分類
　回帰分析
　Ｋ近傍方＆レコメンデーション
　特徴エンジニアリング

Ｈｉｖｅｍａｌｌ　ｏｎ　Ａｐａｃｈｅ　Ｐｉｇ
　Ｐｉｇ上でも使える

Sparkは敵ではなくてお友達

使い方
　トレーニング
　　　特徴ベクトル
　　　　　　　　　　→機械学習
　　　変数
　　　　
　プレディクション

　　　　特徴ベクトル→学習したもの→予測値

データの準備
　　訓練データ
　　予測データ
　Ｍｉｎ－Ｍａｘ正規化による特徴量の正規化

ロジスティック回帰による学習(の例）
select
feature
avg(weight) as weight
From(
select logres・・・　→ここが変わる
　　as (feature,weight)
from news20b_train
) t

アンサンブル学習
　union allでスタック

予測フェーズ
　予測はテスト事例と予測モデルのLEFT OUTER JOINによって行う
　　予測モデル全体をメモリに載せる必要ない

データ分析の分類とツール
　　学習オンライン　予測オンライン
　　学習オフライン　予測オンライン　ここ
　　学習オフライン　予測オンライン
　　学習オフライン　予測オフライン

ＨａｄｏｏｐやＴｒａｓｕｒｅで学習→オフライン
　学習結果をＲＤＢへ：TD-export

リアルタイム予測
　シグモイド

余談：アマゾン　マシーン　ラーニングのコスト
　バッチ予測　１０００件ごとに０．１ドル
リアルタイム予測も

最近対応したもの
　　Matrix Factrization
　　　　あなあき→近似
　　Matrix Factrizationの学習

交差検定の並列処理
　　bit.ly/hivemall-mf
sparkのマトリックスファクタライゼーションとの比較
AdaGrad:細かい設定なしにいい精度
機械学習におけるパラメタ交換
ＭｉｘＳｅｒｖｅｒの利用
リクエスト
　　らんだむふぉれすとほしい
　　
■ネット広告で機械学習Hivemallの活用例
フリークアウト

内容
　自己紹介
　フリークアウト
　ぶんせきちーむ
　機械学習

自己紹介

フリークアウト
　ネット広告の会社
　広告入札システムの提供
　　リアルタイムビッテョング　
　　　ＤＳＰ（でまんどさいどぷらっとふぉーむ）
　人に対して広告を出す

５０ms or Die
　フリークアウトのTechチームが掲げるミッション

50msでやっていること
　広告主側のロジックで
　必要な枠、必要な人、必要な瞬間だけを
　　リアルタイムに判定して入札
　　入札ロジックの洗練が利益に直結

分析チームの紹介
　　５名＋３名(アルバイト）
　　MTBurnのプロダクトカイゼンも
　　実装もする
　　メンバーは実装できること必須
　　Python,perl,C++
　　集計にはHive
　　機械学習の論文を参考にモデル実装
　　検証（オンライン・オフライン）を繰り返す
　　必要に応じて集計ベースの仮説検証

機械学習　Hive mall
　　複数のアルゴリズムが実行検証
　　クリック予測Hivemall
　　ロジスティック回帰を活用

学習用のログは直近数日分のimpression log ＆クリックログ
ロジックの一例：クリック予測モデル
　　工夫した点
　　　amplify：オンプレでやっている
　　　subsampling

まとめ
　Hivemallの利用は簡単
　大規模データに対して機械学習が簡単に出来ます
　Hive queryを使えば複雑な実装をしないでよい８

ＣＴＲ推定：サブサンプリング重要

■LT:Hivemall-on-spark

自己紹介

hivemall-spark
https://github.com/maropu/hivemall-spark

Hivemallラッパー
　クイックトライヤル

Spark？
・パフォーマンス
　　ＨａｄｏｏｐＭＲより１００倍早い？
　ＳＱＬデータフレーム
　グラフ処理
　機械学習
　Ｓｐａｒｋ－Ｒ
　Ｓｃａｌａ、Ｐｙｔｈｏｎ

例：ワードカウント
　Ｓｐａｒｋ　Ｓｈｅｌｌ

　すでに機械学習は入ってる
　MLlib

　インターフェースとしてＳｐａｒｋ、
　エッジのきいたのは違うライブラリ

　Hive on spark
　Hivemall in Hive Context
　　HiveQL
　データフレーム→型と名前とか入ってる
　　Pandas/R
　ＭＬパイプライン
　　ステージ定義
　　ハイパーパラメーターのチューニング
　　　　クロスバリデーター
　　　　学習率のパラメータ

　Ｓｐａｒｋ　Ｓｔｒｅａｍｉｎｇ

　パフォーマンスオプティマイゼーション
　　　netlib-java
　spark パッケージ

■hivemallを使って４日間で性別推定した話
　わたなべさん

自己紹介

DSPについて

１日のリクエスト：数十億／日
ユーザー数１億弱

ログに記録されている主な情報
　　広告枠のＩＤ
　　クッキーに記録されているユーザーのＩＤ
　　ＨＴＴＰリクエストに含まれる一般的な情報

性別：８５％くらい
年代：５０％弱

同じような
http://www2007.org/papers/

利用データ
　閲覧サイト（ドメイン）１４万件
　閲覧サイトのカテゴリ：１４６
　広告可変３０００から６０００
　　１５万Ｘ３００万のすぱーすな行列→Ｈｉｖｅなら軽い

正解率
　hivemallでのclassfication
　８５％くらい

実行時間train_multiclass_SCW

hivemallのメリット
　　学習コストが低い
　　引継ぎが楽
　　データ量の増加に対応しやすい

課題
　正解データなしで
　url+トピック抽出
　年代推定５０％弱→行動にそんなに差がない

ランキングに参加中。クリックして応援お願いします！

記事一覧 | 画像一覧 | フォロワー一覧 | フォトチャンネル一覧

日	月	火	水	木	金	土
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

アクセス
閲覧	1,688	PV
訪問者	870	IP
トータル
閲覧	34,554,262	PV
訪問者	8,538,885	IP
ランキング
日別	555	位
週別	610	位

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】goo blogスタッフの気になったニュース
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

機械学習のライブラリHivemallのMeetupに行ってきた！

カレンダー

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）

機械学習のライブラリHivemallのMeetupに行ってきた！

カレンダー

ログイン

ブログランキング

アクセス状況

プロフィール

最新記事

カテゴリー

最新コメント

バックナンバー

ブックマーク

goo blog おすすめ

goo blog お知らせ