機械学習の分類手法は、こんなかんじ
決定木:分類基準がわかる。Whitebox
SVM:くっきりはっきり分かれ目(サポートベクタ)がわかる場合、有力
ディープラーニング:分かれ目ははっきりしないとき、~っぽいという区別がしたいとき*
ランダムフォレスト:ディープラーニングでやったものより、精度を上げたいとき
アンサンブル:(結局組み合わせなので)精度を上げたいとき
*ディープラーニングは分類の理由がはっきりしない(Blackbox)。なので、分類基準がはっきりできない、させたくないときに有効。
このほかに、ABCのどれかを分類したいとき、「Aがどうか」「Bがどうか」「Cがどうか」をロジスティック回帰でやる方法もある。逆に「その線はね~よ」と消したいときや、説明変数が回帰向き(だけど、分類に回帰はふつう使わない)のときいいかも。
回帰向き:説明変数間が独立だが、目的変数に対し、「連続量で」効いて(寄与して)くる
このちがいを「人間をゴリラと間違える事例」で使ったらどうなるかで説明してみる
ディープラーニング:
過学習させて、この人は、ゴリラに分類されるんだけど、この人だけは、ゴリラの中でも人間と表示するというふうにしてしまう。分類理由(基準)はブラックボックスなので、ゴリラに本当は分類されていることはバレないので、問題なく分類できる。
SVM
カーネルトリックを使って、この人をゴリラから分離でき、それがほかの人間と一緒というサポートベクタが引けないとできない・・・難しいと思う。
決定木
理由がわかってしまう。ディープラーニングの方法では、「じつはゴリラに分類されているんだけど」ってことがバレバレになる。激怒され、大問題。
ランダムフォレスト
データが多くて、ディープラーニングの精度が悪ければあり
アンサンブル
ディープラーニングの精度が悪ければあり
ロジスティック回帰
ゴリラかときいて、その可能性が高ければ、激怒される(たとえ、人間の可能性も高く、最終的に人間と分類できたとしても)
決定木:分類基準がわかる。Whitebox
SVM:くっきりはっきり分かれ目(サポートベクタ)がわかる場合、有力
ディープラーニング:分かれ目ははっきりしないとき、~っぽいという区別がしたいとき*
ランダムフォレスト:ディープラーニングでやったものより、精度を上げたいとき
アンサンブル:(結局組み合わせなので)精度を上げたいとき
*ディープラーニングは分類の理由がはっきりしない(Blackbox)。なので、分類基準がはっきりできない、させたくないときに有効。
このほかに、ABCのどれかを分類したいとき、「Aがどうか」「Bがどうか」「Cがどうか」をロジスティック回帰でやる方法もある。逆に「その線はね~よ」と消したいときや、説明変数が回帰向き(だけど、分類に回帰はふつう使わない)のときいいかも。
回帰向き:説明変数間が独立だが、目的変数に対し、「連続量で」効いて(寄与して)くる
このちがいを「人間をゴリラと間違える事例」で使ったらどうなるかで説明してみる
ディープラーニング:
過学習させて、この人は、ゴリラに分類されるんだけど、この人だけは、ゴリラの中でも人間と表示するというふうにしてしまう。分類理由(基準)はブラックボックスなので、ゴリラに本当は分類されていることはバレないので、問題なく分類できる。
SVM
カーネルトリックを使って、この人をゴリラから分離でき、それがほかの人間と一緒というサポートベクタが引けないとできない・・・難しいと思う。
決定木
理由がわかってしまう。ディープラーニングの方法では、「じつはゴリラに分類されているんだけど」ってことがバレバレになる。激怒され、大問題。
ランダムフォレスト
データが多くて、ディープラーニングの精度が悪ければあり
アンサンブル
ディープラーニングの精度が悪ければあり
ロジスティック回帰
ゴリラかときいて、その可能性が高ければ、激怒される(たとえ、人間の可能性も高く、最終的に人間と分類できたとしても)