ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

ソフトウェエンジニアのための「機械学習理論」入門

2015-06-29 16:17:03 | AI・BigData
6月26日、NIIで

「ソフトウェアエンジニアのための「機械学習理論」入門」
http://topse.or.jp/2015/05/2344


を聞いてきた。その内容をメモメモ




資料はWebにアップロードしたお
http://www.slideshare.net/enakai/ss-46880120

(ハンズオン)
http://www.slideshare.net/enakai/machine-learning-theroy-handson-20150420


数式の意味
例題は、「パターン認識と機械学習」(黄色い本)
この本にチャレンジするファーストステップ

機械学習の本が出版されるはず-その本に書く

講義と平行して演習

■データサイエンス入門
・データサイエンスの全体像
 ビジネス判断を支えるもの
 ビジネスとして意味のある判断指標を見つける

 データ:ビジネス的な意味
 ドメインナレッジも持っていないと

・ビジネスにおけるデータサイエンスの役割
 ハリケーンが来たときに、どういう品揃えをしたらよいか?
  いけてない例
   水が売れました!
   DVD:アナ雪→将来を予測しないといけない
  いけていそう
   ビールがうれていました。在庫したら?
  →在庫にかかる費用と予測
 事実でなく、儲かる方法を聞いている

・いけてない機械学習の例
 チャーニング(ケータイキャリア乗り換え)
   決定木で分析
    お客さんの写真のデータを決定木にいれる:答えは出る

・機械学習アルゴリズムの分類(代表例)
目的:どう使いたいのかで分類
・クラシフィケーション
  分類ルールを作っておく
  確率で決めることもできる
・回帰
  数値を予測する
   何人の人が申し込むか?
   基本料金をいくらにしたら・・・
・クラスタリング
  教師なし学習
  (教師あり:答えがわかっている過去のデータを使う)

ツール
・R
・Enthought(えんそーと) Canopy(きゃのぴー)
  機械学習系がインストールできる
  scikit-learn:機械学習用ライブラリは有償
  pandas:データフレーム使える

演習準備
・Canopyのインストール
・GUIは使わないので閉じる
・ライセンスのメッセージは無視(フリー版なので)
・サンプルコマンドGet、Unzip、config

回帰分析
・最小二乗法
 トレーニングセットのデータ10個
 予測してください

・多項式を仮定する
 二乗誤差を求める→最小値を求める;偏微分が0
 W=係数、t=時点 ファイ=各点

 3次にしたらけっこういい
 9次にしたら全部点がとおる→オーバーフィッティング

 ERMS:誤差の平均

・一般化力
 未来のデータにどのくらい予測できるか
 オーバーフィッティング:見つける方法:テストセットを使う
 ERMSとテストセット→交差分割(クロスバリデーション)
 3次だとわかったら、そのあとは全データを使って検証する
 →誤差はでる。データの本質的な誤差があるから

 横軸を特徴変数という人たちもいる

■最尤推定
・確率的に予想
 +-σぐらいの広がりで
・トレーニングセットが得られる数(掛け算)→尤度関数
  →誤差関数がでてくる
・尤度関数を最大化するパラメータ
  →誤差関数がでてくる→それを分析する
・標準偏差→ERMS
・トレーニングセットの平均が真の平均(分散も)と推定する(あくまでも推定)

不偏分散
・小さく出る→ちっと大きくしたほうがいい値
 NでなくN-1とする

■線形判別法
・パーセプトロン(誤差最小)
 1とー1にラベル付けされているのを分ける
 誤差を小さくする

 確率的勾配こうかほう
 ベクトル解析。グラディエント:こうばいベクトルが出る

 n=1,2,・・・N
 間違って分類されていたら、パラメータを修正する
 Nまでいったら、また1に戻る

 バイアス項は任意にとれるが、収束速度が変わる
 C=1で書くと、収束が遅いはず
  →サンプルが早いのは、トレーニングセットが原点付近を通る用になっている
   三次元で考えると、定数Cを通る平面上に点をばらまける。
   この場合原点をとおる平面によって分割直線を表現できる
    →教科書に超平面で分割するとかかいてあるやつ

・ロジスティック回帰(確率最大)
 tが0と1とする→ベルヌーイ分布になる
 1の確率p、0の確率(1-p)
 これを1つにまとめるとベルヌーイ分布
 →尤度はIRLSで求められる

■学習モデルの評価(ROC曲線)
・何パーセントにしたらいいか
  TP Rate
  FP Rate
 ROC曲線を書いて判断する
  TP Rate,FP Rateの曲線
  うまく分類できると、左上にはりだす
  なまめ45度=ランダム判定
  下側にくる→悪意を持ってうそをついている
 数学的にはAUC(エリアアンダーカーブ)でやる

■クラスタリング
・K-means
 2乗ゆがみが小さいグループを答えとする
 代表点も属するグループもランダムに決める→選びなおす
 いつかは極小値になる
 何回もクラスタリングする

 応用例:画像減色処理

 文書の分類:同じ単語がどのくらい

・EM法
 手書き文字の分類
  代表文字とどれくらい似ているか
  各ピクセルが黒になるマスター
   手書き文字をランダムに生成
   同じものが得られる確率→尤度関数
  →ベルヌーイ分布になる
 K平均法に類似した手続きで得られる
  K番目のジェネレーターが使われる確率
  重心を取る

クラスタリング:主観が入る

CTC教育サービス

NECの「学習型超画像技術」→事前に鮮明なナンバープレートで学習
この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 「概念モデリング再入門 ~... | トップ | マイナンバーは原則別テーブ... »
最新の画像もっと見る

AI・BigData」カテゴリの最新記事