ソフトウェエンジニアのための「機械学習理論」入門

2015-06-29 16:17:03 | AI・BigData

６月２６日、NIIで

「ソフトウェアエンジニアのための「機械学習理論」入門」
http://topse.or.jp/2015/05/2344

を聞いてきた。その内容をメモメモ

資料はWebにアップロードしたお
http://www.slideshare.net/enakai/ss-46880120

（ハンズオン）
http://www.slideshare.net/enakai/machine-learning-theroy-handson-20150420

数式の意味
例題は、「パターン認識と機械学習」（黄色い本）
この本にチャレンジするファーストステップ

機械学習の本が出版されるはず－その本に書く

講義と平行して演習

■データサイエンス入門
・データサイエンスの全体像
　ビジネス判断を支えるもの
　ビジネスとして意味のある判断指標を見つける

　データ：ビジネス的な意味
　ドメインナレッジも持っていないと

・ビジネスにおけるデータサイエンスの役割
　ハリケーンが来たときに、どういう品揃えをしたらよいか？
　　いけてない例
　　　水が売れました！
　　　DVD：アナ雪→将来を予測しないといけない
　　いけていそう
　　　ビールがうれていました。在庫したら？
　　→在庫にかかる費用と予測
　事実でなく、儲かる方法を聞いている

・いけてない機械学習の例
　チャーニング（ケータイキャリア乗り換え）
　　　決定木で分析
　　　　お客さんの写真のデータを決定木にいれる：答えは出る

・機械学習アルゴリズムの分類（代表例）
目的：どう使いたいのかで分類
・クラシフィケーション
　　分類ルールを作っておく
　　確率で決めることもできる
・回帰
　　数値を予測する
　　　何人の人が申し込むか？
　　　基本料金をいくらにしたら・・・
・クラスタリング
　　教師なし学習
　　（教師あり：答えがわかっている過去のデータを使う）

ツール
・R
・Enthought（えんそーと） Canopy（きゃのぴー）
　　機械学習系がインストールできる
　　scikit-learn：機械学習用ライブラリは有償
　　pandas：データフレーム使える

演習準備
・Canopyのインストール
・GUIは使わないので閉じる
・ライセンスのメッセージは無視（フリー版なので）
・サンプルコマンドGet、Unzip、config

回帰分析
・最小二乗法
　トレーニングセットのデータ１０個
　予測してください

・多項式を仮定する
　二乗誤差を求める→最小値を求める；偏微分が０
　W＝係数、ｔ＝時点　ファイ＝各点

　３次にしたらけっこういい
　９次にしたら全部点がとおる→オーバーフィッティング

　ERMS：誤差の平均

・一般化力
　未来のデータにどのくらい予測できるか
　オーバーフィッティング：見つける方法：テストセットを使う
　ERMSとテストセット→交差分割（クロスバリデーション）
　３次だとわかったら、そのあとは全データを使って検証する
　→誤差はでる。データの本質的な誤差があるから

　横軸を特徴変数という人たちもいる

■最尤推定
・確率的に予想
　+－σぐらいの広がりで
・トレーニングセットが得られる数（掛け算）→尤度関数
　　→誤差関数がでてくる
・尤度関数を最大化するパラメータ
　　→誤差関数がでてくる→それを分析する
・標準偏差→ERMS
・トレーニングセットの平均が真の平均（分散も）と推定する（あくまでも推定）

不偏分散
・小さく出る→ちっと大きくしたほうがいい値
　NでなくN-1とする

■線形判別法
・パーセプトロン（誤差最小）
　１とー１にラベル付けされているのを分ける
　誤差を小さくする

　確率的勾配こうかほう
　ベクトル解析。グラディエント：こうばいベクトルが出る

　n=1,2,・・・N
　間違って分類されていたら、パラメータを修正する
　Nまでいったら、また１に戻る

　バイアス項は任意にとれるが、収束速度が変わる
　C=1で書くと、収束が遅いはず
　　→サンプルが早いのは、トレーニングセットが原点付近を通る用になっている
　　　三次元で考えると、定数Cを通る平面上に点をばらまける。
　　　この場合原点をとおる平面によって分割直線を表現できる
　　　　→教科書に超平面で分割するとかかいてあるやつ

・ロジスティック回帰（確率最大）
　ｔが０と１とする→ベルヌーイ分布になる
　１の確率ｐ、０の確率（１－ｐ）
　これを１つにまとめるとベルヌーイ分布
　→尤度はIRLSで求められる

■学習モデルの評価（ROC曲線）
・何パーセントにしたらいいか
　　TP　Rate
　　FP　Rate
　ROC曲線を書いて判断する
　　TP　Rate,FP　Rateの曲線
　　うまく分類できると、左上にはりだす
　　なまめ４５度＝ランダム判定
　　下側にくる→悪意を持ってうそをついている
　数学的にはAUC（エリアアンダーカーブ）でやる

■クラスタリング
・K-means
　２乗ゆがみが小さいグループを答えとする
　代表点も属するグループもランダムに決める→選びなおす
　いつかは極小値になる
　何回もクラスタリングする

　応用例：画像減色処理

　文書の分類：同じ単語がどのくらい

・EM法
　手書き文字の分類
　　代表文字とどれくらい似ているか
　　各ピクセルが黒になるマスター
　　　手書き文字をランダムに生成
　　　同じものが得られる確率→尤度関数
　　→ベルヌーイ分布になる
　K平均法に類似した手続きで得られる
　　K番目のジェネレーターが使われる確率
　　重心を取る

クラスタリング：主観が入る

CTC教育サービス

NECの「学習型超画像技術」→事前に鮮明なナンバープレートで学習

ランキングに参加中。クリックして応援お願いします！

日	月	火	水	木	金	土
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

アクセス
閲覧	1,135	PV
訪問者	678	IP
トータル
閲覧	34,603,905	PV
訪問者	8,566,600	IP
ランキング
日別	791	位
週別	660	位

	【gooブロガー・先着】dアカウント連携でdポイント2,000pt
	ブログを読むだけ。毎月の訪問日数に応じてポイント進呈
	【コメント募集中】goo blogスタッフの気になったニュース
	gooブロガーの今日のひとこと
	訪問者数に応じてdポイント最大1,000pt当たる！

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）