ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

RでCSVファイルを結合して、クロス集計した結果を図で示す

2013-05-27 15:35:48 | AI・BigData
こんにちは。データ分析・活用実践講座 7班の班長です。

わが班の発表の、最後、Rでクロス集計を行って、その結果を

のように、図示する方法について、あとで聞きに来たかたがいたのに、
はっきり答えなかったので、ここで紹介しておきます
(って、その人がこのブログを見てくれているとも思えないけど・・・ ^^;)




まず、やりたいことは、こんなかんじ。

【やりたいこと】
・ここに購入履歴(rireki.csv)と、購買者属性(zokusei.csv)がある。
  購入履歴には、購買者ID(ID),購入品番(Goods:1~6)・・・などなど
  購買者属性には、購買者ID(ID)、部署(Busho:1~10)、性別(Sex:1,2)・・・などなど
 がある

・ここで、商品(1~6)ごとに、どのような部署が買っているか、男性・女性どちらが買っているか
 などをクロス集計して、結果を図示したい


そこで、やることは、

【やること】
・2つのCSVファイルを読み込み
・2つを結合して(marge)
・商品と部署、商品と性別をクロス集計して(table)
・表示する

ということになる

これを、Rでやると、こんなかんじ

【Rのコマンド】
rireki <- read.csv("rireki.csv")
zokusei<- read.csv("zokusei.csv")
head(rireki)

rireki2<- merge(rireki,zokusei,by="ID")
head(rireki2)

table(rireki2$Goods,rireki2$Busho)
plot(table(rireki2$Goods,rireki2$Busho))


読み込みは、いきなりread.csv("rireki.csv")と書いているが、実はこの前に
メニューから ファイル>ディレクトリの変更 で以下のように

読み取りディレクトリを変えている

marge(CSVファイル1、CSVファイル2、by=”結合するキー”)
となる。今回結合するキーはID

tableでクロス集計、それをplotで表示するが、
クロス集計表とplotで表示する項目が、縦横逆になる

ので注意

これが、さっき書いた

 大掛かりな解析や、ソフト開発の話がいらない割りに、リアルタイムに状況が把握でき、次の一手がすぐに打て、その結果がすぐにわかるので、効果がすぐに出やすい。
Rでも、これなら簡単にできる(というのを、次のエントリーで示す)

のこと。




なお、「データ分析・活用実践講座 [演習付き]」についての感想。

おもしろかった(‘_‘!)
はじめのほうは、とくに、

  シート37 回帰系の体系と
  シート38 分析手法マップ
  シート42 手法毎の主な用途

が、超大切なシート!

午後はRをつかってなんだけど・・・
・・・ちょっと、途中、ついていけなくなった(;_;)・・・
いや、やってることは、わかるんだけどね、
データで迷子になってしまった感じ(^^;)

即興で7班の班長による、データをざっと見る話(上記のやつ)が
あったけど・・・便利でしょ、これ。
見たいテーブルを、margeしていき、それをtableでクロス集計していく。
そして、plotして特徴を大づかみに掴む。
このぐらいでいいんではないでしょうか?

全体的には、BI,BAのレベルまでを一気に行う
(決定木をつかって)
雰囲気的には、データ分析の初歩的な感触はつかめた気がする。

以上、報告終わり!
この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« ビッグデータより現場のデー... | トップ | BRMSが、流行なの・・・ »
最新の画像もっと見る

AI・BigData」カテゴリの最新記事