テストに、基本的な型があると教わってきたので、データ分析の基本的な型を
考えてみる。ただ、抽象的に言ってもなんなので、具体的に。
■基本の型
以下の手順で行う
データ収集
分析
表示・報告
これを、Rでは、どういう仕組みになっているかを示す。
■「データ収集」のRの基本
Rでは、基本的に、データ分析を行うには、
データフレーム=データ(マトリックス)+項目名(colname)
の形にして行う。
つまり、データを何らかの形で入力して、データフレームにするのが、
データ収集の役割といえる。
かんたんなところでは、CSVを読み込むread.csv(ファイル名)などがある。
■「分析」のRの基本
分析は、データフレームから、「それぞれの分析方法(データとパラメタ)」を実行して
結果を入れることになる。この分析方法は様々あり、それによって必要なライブラリが
ちがってくる。たとえば、
K-meansはkmeans
階層型クラスタリングはhclust
SVMはsmv(ライブラリe1071が必要)
決定木はrpart(ライブラリrpart必要)
重回帰はlm
因子分析はfactanal
などなど・・・
ただ、これらの分析は、呼べばすぐやってくれる・・・場合もあるけど、下準備がいるものもある
たとえば、
・hclustは距離を入力させるので、データをデータフレーム(ここではdataとすると)でなく
距離の形dist(data)にしたり、
・factanalは、分けるグループ数を決めないといけないんで、
(てきとうに決めてもいいけど)スクリープロットを見ることもある
(VSS.scree(iris[,1:4])とかする。ライブラリpsychが必要)
・このほか、外れ値、欠測値や正規化処理、相関(cor)を求めることが必要なものもある。
・また、lmなどでは、モデルを入れる(目的変数~. みたいな形)
そして、パラメータはデフォルトではじめやって、結果をみながら、いろいろ調整していくことになる
つまり、分析では
下準備
分析
結果をみながらパラメータ調整
が各分析手法ごとにある。
■「表示・報告」のRの基本の形
sumaryで、テキストベースで統計に必要な情報はでてくる
plotで図が出てくるものもある。
ほかにも、書き出し用のコマンドが様々あり(ファイルに書き出す、イメージとして出力など)
分析に応じて、出方が変わったり、使えなかったりする。
Rのコマンドを覚えるとき、使うときは、
データ収集:入力用のコマンド?
分析:入力を処理するコマンド?
表示・報告:出力するコマンド?
のどれかを区別して覚える必要がある。
分析手法の順番については、またこんど。
考えてみる。ただ、抽象的に言ってもなんなので、具体的に。
■基本の型
以下の手順で行う
データ収集
分析
表示・報告
これを、Rでは、どういう仕組みになっているかを示す。
■「データ収集」のRの基本
Rでは、基本的に、データ分析を行うには、
データフレーム=データ(マトリックス)+項目名(colname)
の形にして行う。
つまり、データを何らかの形で入力して、データフレームにするのが、
データ収集の役割といえる。
かんたんなところでは、CSVを読み込むread.csv(ファイル名)などがある。
■「分析」のRの基本
分析は、データフレームから、「それぞれの分析方法(データとパラメタ)」を実行して
結果を入れることになる。この分析方法は様々あり、それによって必要なライブラリが
ちがってくる。たとえば、
K-meansはkmeans
階層型クラスタリングはhclust
SVMはsmv(ライブラリe1071が必要)
決定木はrpart(ライブラリrpart必要)
重回帰はlm
因子分析はfactanal
などなど・・・
ただ、これらの分析は、呼べばすぐやってくれる・・・場合もあるけど、下準備がいるものもある
たとえば、
・hclustは距離を入力させるので、データをデータフレーム(ここではdataとすると)でなく
距離の形dist(data)にしたり、
・factanalは、分けるグループ数を決めないといけないんで、
(てきとうに決めてもいいけど)スクリープロットを見ることもある
(VSS.scree(iris[,1:4])とかする。ライブラリpsychが必要)
・このほか、外れ値、欠測値や正規化処理、相関(cor)を求めることが必要なものもある。
・また、lmなどでは、モデルを入れる(目的変数~. みたいな形)
そして、パラメータはデフォルトではじめやって、結果をみながら、いろいろ調整していくことになる
つまり、分析では
下準備
分析
結果をみながらパラメータ調整
が各分析手法ごとにある。
■「表示・報告」のRの基本の形
sumaryで、テキストベースで統計に必要な情報はでてくる
plotで図が出てくるものもある。
ほかにも、書き出し用のコマンドが様々あり(ファイルに書き出す、イメージとして出力など)
分析に応じて、出方が変わったり、使えなかったりする。
Rのコマンドを覚えるとき、使うときは、
データ収集:入力用のコマンド?
分析:入力を処理するコマンド?
表示・報告:出力するコマンド?
のどれかを区別して覚える必要がある。
分析手法の順番については、またこんど。