人工知能を用いた予測モデル構築に必要な条件と導入事例

2016-08-19 10:12:18 | AI・BigData

８月１８日、

AI活用セミナー　人工知能を用いた予測モデル構築に必要な条件と導入事例
講師：DATUM STUDIOの人

を聞いてきた。その内容をメモメモ

今日の話は、真新しい手法ではない。
　ディープラーニングで・・・というのではない
　データが整理できていない、足りないとか

■会社の紹介
DATUM STUDIO
　４０人くらいの会社、３期目
　統計のプロフェッショナルとエンジニアリングのプロ

強み
　インターネット上の情報を収集し、人工知能を用いて
　ビジネス活用を支援することを得意としています

業界業種関係なく：大手多い

■ＡＩ（人工知能）とは
　人工的にコンピューター上などで人間と同様の・・・
　ビッグデータからまた増えた
　ＤｅｅｐＬｅａｒｉｎｉｇも人工知能につれて
　歴史
　　ルールベース
　　決定機
　　ベイズ
　　ディープラーニング

　人工知能の分類
　　識別
　　　判別・仕わけ・検索
　　　音声・画像・動画
　　　異常検知・予知
　　予測
　　　数値予測
　　　ニーズ・意図予測
　　　マッチング
　　実行
　　　表現出現・デザイン
　　　行動の最適化、作業の自動化

　人間
　　形、色を見て判別
　　　経験・記憶をベース
　　過去のデータから特徴を学習

　事例
　　識別系
　　　テキスト等　前処理　特徴抽出　判別　アクション
　・ユーザーが話しかけた内容に対して意味がある返事をするオンラインボット
　・女子高生の設定　りんな
　・アスクル　マナミさん

　・Ａｍａｚｏｎ　Alexa

　・カラフルボード社
　・ロボットスター　Ｊｉｂｏ

　　予測系
　　入出力の関係予測

　　　　数値など　前処理　特徴抽出　予測　アクション

　　記事の出すのの最適化
　　天気予報
　　カブドットコム証券

　　実行系
　　　行動の最適化
　　　　コンピューター囲碁
　　　　自動で走る車
　　　　会計処理の自動化
　　　　効果的なコピー

■人工知能を用いた予測モデルの構築

数値予測
　目的変数；量的変数
　代表的な手法
　　重回帰
　　決定木
　　ランダムフォレスト
クラス分類
　目的変数：質的変数
　代表的な手法
　　ロジスティック回帰モデル
　　決定木
　　ＳＶＭ
　　ランダムフォレスト

予測モデルの例：単回帰モデル
　　１つの説明変数で応答変数を予測するモデル
回帰モデルの考え方
　　説明変数と目的変数の散布図に対して直線で当てはめる
直線の求め方；最小二乗法
　　予測と実際の差がもっとも小さくなるパラメータを推定
重回帰モデル
　　説明変数が複数

予測モデルの構築と予測
　　将来の値を予測する
　　　学習　　→　　予測
　　過学習

　　学習データを訓練データと検証データに分ける
　　　予測精度高いモデルを採用

■ＤＡＴＵＭ　ＳＴＵＤＩＯの事例
・原材料価格予測
・相場価格
・推薦商品（レコメンド）

原材料
　データ
　　過去３０年の価格、５年の指標データ

　アプローチ：２とおり
　　時系列
　　人工知能
　→データ量が多いほうが精度がでる
　　機械学習・人工知能より精度落ちる
　　　ＡＲＩＭＡモデル

　人工知能
　　直近の６ヶ月の説明変数をもちいて予測
　　合成変数
　　選択した変数
　　予測モデル

　使用した予測モデル：統合モデル
　　いったん予測：さらに統合して予測
　　　基本的なテクニック
　　Ｒ言語では約３００位のモデルが入っている
　　　ＤＮＮも入っている
　　　Random Forestで統合

　Random Forest
　　決定木モデルの集団学習により高精度の分類

　決定木
　　目的変数が明瞭に分割されるような

　集団学習
　　複数のモデルを
　　　分類：多数決
　　　回帰：平均値

　説明変数の拡充
　説明変数を絞ってデータの期間を延ばす

２つめ；ネットオークション
　取引履歴をもとに相場を予測するモデルの構築
　　当たらない商品→商品名の表記ぶれ
　　　→画像認識

　取引情報を用いた相場予測モデル
　テキストベースの名寄せ
　画像

　相場予測モデル
　　　学習
　　　前処理；ルールベースでの名寄せ
　名寄せ：類似度を出して、似てる度ランキング
　　　こさいん類似度
　　　jaro-winkler類似度　ミスタイプ
　　　bigram類似度
　画像ベースの名寄せ
　　　サイズ調整
　　　グレースケール
　　　スムージング
　　　反転回転
　　　ＳＩＦＴ特徴量（OpenSIFT）
　学習
　　ＤｅｅｐLearning
　名寄せ
　　近いものランキング

ＤｅｅｐＬｅａｒｎｉｎｇ
　ニューラルネットワークの多層化
　膨大なリソースと計算機がないと、精度でない　向き不向き

顔認識：ＯｐｅｎＣＶを使っている

　男の子診断

３つめ：レコメンド
　推薦商品
　　ＩＤつきＰＯＳと施策のマスタデータ
　課題感
　　推薦すべき商品は分かるが、遡及方法が分からない
　解決アプローチ
　　購買の予測モデルを作り
　　購買に効いている要因を明らかにする
　レコメンドエンジンの全体像
　　来店パターン
　　併売パターン
　　影響力
　　併売パターン

　来店パターンに基づくクラスタリング
　　よく来店する時間帯が似ている顧客をまとめる
　　　　→本質的なセグメント

　たまたま来店したユーザーの除外→８割ライトユーザー（ノイズ）
　購買ログから来店回数を集計→比率（時間別に）
　主成分分析で、独立成分に（特徴的な傾向でまとめる）

　　クラスタリング
　　　似ているデータをまとめて、いくつかのグループに分ける手法
　　似てる：データ間の距離
　　　ユークリッド距離
　　K-Meansを使っている：実行のたびに結果が変わる
　　　　最適な初期値
　　　　K-Meansを繰り返す
　　３～８クラスタを試し、６を採用

　併売パターンに基づくクラスタリング
　　ノイズとなる商品を除外
　　　商品単位で購買数量を集計→だれもが買っているものも除外
　　　アソシエーション分析を用いて併売ルールを抽出
　　　併売ルールを特徴量としてソフトクラスタリング
　　　　→確率を持って所属する
　　ＮＭＦ：非負値行列
　推薦商品の購買予測モデルの構築
　　二項ロジットモデルを用いて併売パタンクラスタごとに購買確率及び影響力
　　併売パタンクラスタごとに併売ルール

■会社宣伝
　働く仲間募集

ランキングに参加中。クリックして応援お願いします！

日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

アクセス
閲覧	1,647	PV
訪問者	871	IP
トータル
閲覧	34,498,585	PV
訪問者	8,513,270	IP
ランキング
日別	387	位
週別	487	位

	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！
	goo blogは20周年を迎えました！

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）