goo blog サービス終了のお知らせ 

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

Rでの作業の進め方の「基本的な型」

2016-10-28 12:13:30 | Weblog
 テストに、基本的な型があると教わってきたので、データ分析の基本的な型を
考えてみる。ただ、抽象的に言ってもなんなので、具体的に。

■基本の型
  以下の手順で行う
    データ収集
    分析
    表示・報告
  これを、Rでは、どういう仕組みになっているかを示す。




■「データ収集」のRの基本
 Rでは、基本的に、データ分析を行うには、
   データフレーム=データ(マトリックス)+項目名(colname)
 の形にして行う。

 つまり、データを何らかの形で入力して、データフレームにするのが、
データ収集の役割といえる。

 かんたんなところでは、CSVを読み込むread.csv(ファイル名)などがある。




■「分析」のRの基本
 分析は、データフレームから、「それぞれの分析方法(データとパラメタ)」を実行して
 結果を入れることになる。この分析方法は様々あり、それによって必要なライブラリが
 ちがってくる。たとえば、
   K-meansはkmeans
   階層型クラスタリングはhclust
   SVMはsmv(ライブラリe1071が必要)
   決定木はrpart(ライブラリrpart必要)
   重回帰はlm
   因子分析はfactanal
 などなど・・・

 ただ、これらの分析は、呼べばすぐやってくれる・・・場合もあるけど、下準備がいるものもある
 たとえば、
  ・hclustは距離を入力させるので、データをデータフレーム(ここではdataとすると)でなく
   距離の形dist(data)にしたり、
  ・factanalは、分けるグループ数を決めないといけないんで、
   (てきとうに決めてもいいけど)スクリープロットを見ることもある
     (VSS.scree(iris[,1:4])とかする。ライブラリpsychが必要)
  ・このほか、外れ値、欠測値や正規化処理、相関(cor)を求めることが必要なものもある。
  ・また、lmなどでは、モデルを入れる(目的変数~. みたいな形)

 そして、パラメータはデフォルトではじめやって、結果をみながら、いろいろ調整していくことになる

 つまり、分析では

   下準備
   分析
   結果をみながらパラメータ調整

 が各分析手法ごとにある。




■「表示・報告」のRの基本の形
 sumaryで、テキストベースで統計に必要な情報はでてくる
 plotで図が出てくるものもある。
 ほかにも、書き出し用のコマンドが様々あり(ファイルに書き出す、イメージとして出力など)
 分析に応じて、出方が変わったり、使えなかったりする。




Rのコマンドを覚えるとき、使うときは、
  データ収集:入力用のコマンド?
   分析:入力を処理するコマンド?
  表示・報告:出力するコマンド?
のどれかを区別して覚える必要がある。

分析手法の順番については、またこんど。
この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 学校の現状まとめた「教育ICT... | トップ | JapanITWeek秋に行って来た »
最新の画像もっと見る

Weblog」カテゴリの最新記事