8月18日、
AI活用セミナー 人工知能を用いた予測モデル構築に必要な条件と導入事例
講師:DATUM STUDIOの人
を聞いてきた。その内容をメモメモ
今日の話は、真新しい手法ではない。
ディープラーニングで・・・というのではない
データが整理できていない、足りないとか
■会社の紹介
DATUM STUDIO
40人くらいの会社、3期目
統計のプロフェッショナルとエンジニアリングのプロ
強み
インターネット上の情報を収集し、人工知能を用いて
ビジネス活用を支援することを得意としています
業界業種関係なく:大手多い
■AI(人工知能)とは
人工的にコンピューター上などで人間と同様の・・・
ビッグデータからまた増えた
DeepLearinigも人工知能につれて
歴史
ルールベース
決定機
ベイズ
ディープラーニング
人工知能の分類
識別
判別・仕わけ・検索
音声・画像・動画
異常検知・予知
予測
数値予測
ニーズ・意図予測
マッチング
実行
表現出現・デザイン
行動の最適化、作業の自動化
人間
形、色を見て判別
経験・記憶をベース
過去のデータから特徴を学習
事例
識別系
テキスト等 前処理 特徴抽出 判別 アクション
・ユーザーが話しかけた内容に対して意味がある返事をするオンラインボット
・女子高生の設定 りんな
・アスクル マナミさん
・Amazon Alexa
・カラフルボード社
・ロボットスター Jibo
予測系
入出力の関係予測
数値など 前処理 特徴抽出 予測 アクション
記事の出すのの最適化
天気予報
カブドットコム証券
実行系
行動の最適化
コンピューター囲碁
自動で走る車
会計処理の自動化
効果的なコピー
■人工知能を用いた予測モデルの構築
数値予測
目的変数;量的変数
代表的な手法
重回帰
決定木
ランダムフォレスト
クラス分類
目的変数:質的変数
代表的な手法
ロジスティック回帰モデル
決定木
SVM
ランダムフォレスト
予測モデルの例:単回帰モデル
1つの説明変数で応答変数を予測するモデル
回帰モデルの考え方
説明変数と目的変数の散布図に対して直線で当てはめる
直線の求め方;最小二乗法
予測と実際の差がもっとも小さくなるパラメータを推定
重回帰モデル
説明変数が複数
予測モデルの構築と予測
将来の値を予測する
学習 → 予測
過学習
学習データを訓練データと検証データに分ける
予測精度高いモデルを採用
■DATUM STUDIOの事例
・原材料価格予測
・相場価格
・推薦商品(レコメンド)
原材料
データ
過去30年の価格、5年の指標データ
アプローチ:2とおり
時系列
人工知能
→データ量が多いほうが精度がでる
機械学習・人工知能より精度落ちる
ARIMAモデル
人工知能
直近の6ヶ月の説明変数をもちいて予測
合成変数
選択した変数
予測モデル
使用した予測モデル:統合モデル
いったん予測:さらに統合して予測
基本的なテクニック
R言語では約300位のモデルが入っている
DNNも入っている
Random Forestで統合
Random Forest
決定木モデルの集団学習により高精度の分類
決定木
目的変数が明瞭に分割されるような
集団学習
複数のモデルを
分類:多数決
回帰:平均値
説明変数の拡充
説明変数を絞ってデータの期間を延ばす
2つめ;ネットオークション
取引履歴をもとに相場を予測するモデルの構築
当たらない商品→商品名の表記ぶれ
→画像認識
取引情報を用いた相場予測モデル
テキストベースの名寄せ
画像
相場予測モデル
学習
前処理;ルールベースでの名寄せ
名寄せ:類似度を出して、似てる度ランキング
こさいん類似度
jaro-winkler類似度 ミスタイプ
bigram類似度
画像ベースの名寄せ
サイズ調整
グレースケール
スムージング
反転回転
SIFT特徴量(OpenSIFT)
学習
DeepLearning
名寄せ
近いものランキング
DeepLearning
ニューラルネットワークの多層化
膨大なリソースと計算機がないと、精度でない 向き不向き
顔認識:OpenCVを使っている
男の子診断
3つめ:レコメンド
推薦商品
IDつきPOSと施策のマスタデータ
課題感
推薦すべき商品は分かるが、遡及方法が分からない
解決アプローチ
購買の予測モデルを作り
購買に効いている要因を明らかにする
レコメンドエンジンの全体像
来店パターン
併売パターン
影響力
併売パターン
来店パターンに基づくクラスタリング
よく来店する時間帯が似ている顧客をまとめる
→本質的なセグメント
たまたま来店したユーザーの除外→8割ライトユーザー(ノイズ)
購買ログから来店回数を集計→比率(時間別に)
主成分分析で、独立成分に(特徴的な傾向でまとめる)
クラスタリング
似ているデータをまとめて、いくつかのグループに分ける手法
似てる:データ間の距離
ユークリッド距離
K-Meansを使っている:実行のたびに結果が変わる
最適な初期値
K-Meansを繰り返す
3~8クラスタを試し、6を採用
併売パターンに基づくクラスタリング
ノイズとなる商品を除外
商品単位で購買数量を集計→だれもが買っているものも除外
アソシエーション分析を用いて併売ルールを抽出
併売ルールを特徴量としてソフトクラスタリング
→確率を持って所属する
NMF:非負値行列
推薦商品の購買予測モデルの構築
二項ロジットモデルを用いて併売パタンクラスタごとに購買確率及び影響力
併売パタンクラスタごとに併売ルール
■会社宣伝
働く仲間募集
AI活用セミナー 人工知能を用いた予測モデル構築に必要な条件と導入事例
講師:DATUM STUDIOの人
を聞いてきた。その内容をメモメモ
今日の話は、真新しい手法ではない。
ディープラーニングで・・・というのではない
データが整理できていない、足りないとか
■会社の紹介
DATUM STUDIO
40人くらいの会社、3期目
統計のプロフェッショナルとエンジニアリングのプロ
強み
インターネット上の情報を収集し、人工知能を用いて
ビジネス活用を支援することを得意としています
業界業種関係なく:大手多い
■AI(人工知能)とは
人工的にコンピューター上などで人間と同様の・・・
ビッグデータからまた増えた
DeepLearinigも人工知能につれて
歴史
ルールベース
決定機
ベイズ
ディープラーニング
人工知能の分類
識別
判別・仕わけ・検索
音声・画像・動画
異常検知・予知
予測
数値予測
ニーズ・意図予測
マッチング
実行
表現出現・デザイン
行動の最適化、作業の自動化
人間
形、色を見て判別
経験・記憶をベース
過去のデータから特徴を学習
事例
識別系
テキスト等 前処理 特徴抽出 判別 アクション
・ユーザーが話しかけた内容に対して意味がある返事をするオンラインボット
・女子高生の設定 りんな
・アスクル マナミさん
・Amazon Alexa
・カラフルボード社
・ロボットスター Jibo
予測系
入出力の関係予測
数値など 前処理 特徴抽出 予測 アクション
記事の出すのの最適化
天気予報
カブドットコム証券
実行系
行動の最適化
コンピューター囲碁
自動で走る車
会計処理の自動化
効果的なコピー
■人工知能を用いた予測モデルの構築
数値予測
目的変数;量的変数
代表的な手法
重回帰
決定木
ランダムフォレスト
クラス分類
目的変数:質的変数
代表的な手法
ロジスティック回帰モデル
決定木
SVM
ランダムフォレスト
予測モデルの例:単回帰モデル
1つの説明変数で応答変数を予測するモデル
回帰モデルの考え方
説明変数と目的変数の散布図に対して直線で当てはめる
直線の求め方;最小二乗法
予測と実際の差がもっとも小さくなるパラメータを推定
重回帰モデル
説明変数が複数
予測モデルの構築と予測
将来の値を予測する
学習 → 予測
過学習
学習データを訓練データと検証データに分ける
予測精度高いモデルを採用
■DATUM STUDIOの事例
・原材料価格予測
・相場価格
・推薦商品(レコメンド)
原材料
データ
過去30年の価格、5年の指標データ
アプローチ:2とおり
時系列
人工知能
→データ量が多いほうが精度がでる
機械学習・人工知能より精度落ちる
ARIMAモデル
人工知能
直近の6ヶ月の説明変数をもちいて予測
合成変数
選択した変数
予測モデル
使用した予測モデル:統合モデル
いったん予測:さらに統合して予測
基本的なテクニック
R言語では約300位のモデルが入っている
DNNも入っている
Random Forestで統合
Random Forest
決定木モデルの集団学習により高精度の分類
決定木
目的変数が明瞭に分割されるような
集団学習
複数のモデルを
分類:多数決
回帰:平均値
説明変数の拡充
説明変数を絞ってデータの期間を延ばす
2つめ;ネットオークション
取引履歴をもとに相場を予測するモデルの構築
当たらない商品→商品名の表記ぶれ
→画像認識
取引情報を用いた相場予測モデル
テキストベースの名寄せ
画像
相場予測モデル
学習
前処理;ルールベースでの名寄せ
名寄せ:類似度を出して、似てる度ランキング
こさいん類似度
jaro-winkler類似度 ミスタイプ
bigram類似度
画像ベースの名寄せ
サイズ調整
グレースケール
スムージング
反転回転
SIFT特徴量(OpenSIFT)
学習
DeepLearning
名寄せ
近いものランキング
DeepLearning
ニューラルネットワークの多層化
膨大なリソースと計算機がないと、精度でない 向き不向き
顔認識:OpenCVを使っている
男の子診断
3つめ:レコメンド
推薦商品
IDつきPOSと施策のマスタデータ
課題感
推薦すべき商品は分かるが、遡及方法が分からない
解決アプローチ
購買の予測モデルを作り
購買に効いている要因を明らかにする
レコメンドエンジンの全体像
来店パターン
併売パターン
影響力
併売パターン
来店パターンに基づくクラスタリング
よく来店する時間帯が似ている顧客をまとめる
→本質的なセグメント
たまたま来店したユーザーの除外→8割ライトユーザー(ノイズ)
購買ログから来店回数を集計→比率(時間別に)
主成分分析で、独立成分に(特徴的な傾向でまとめる)
クラスタリング
似ているデータをまとめて、いくつかのグループに分ける手法
似てる:データ間の距離
ユークリッド距離
K-Meansを使っている:実行のたびに結果が変わる
最適な初期値
K-Meansを繰り返す
3~8クラスタを試し、6を採用
併売パターンに基づくクラスタリング
ノイズとなる商品を除外
商品単位で購買数量を集計→だれもが買っているものも除外
アソシエーション分析を用いて併売ルールを抽出
併売ルールを特徴量としてソフトクラスタリング
→確率を持って所属する
NMF:非負値行列
推薦商品の購買予測モデルの構築
二項ロジットモデルを用いて併売パタンクラスタごとに購買確率及び影響力
併売パタンクラスタごとに併売ルール
■会社宣伝
働く仲間募集