裏 RjpWiki

Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学

ダメ出し:分析に使用する変数

2012年12月19日 | 統計学

主成分分析をやる にて

> 主成分分析を行う。
> respca <- prcomp(data0[, -c(1:3)])

というのは,まずい。

用いたデータには,試合数,打席数,安打数などの計数値と,長打率,安打率のような割合が混在している。このような場合には,変数は標準化したほうがよい(しない方がよいという観点もあるが)。

ということで,少なくとも,

respca <- prcomp(data0[, -c(1:3)], scale. = TRUE)

としたほうがよいと思われる。

また,長打率,安打率が使われている意味を考えると,安打数,二塁打数などというのも,打数(または打席数)に対しての率のデータにして使う方がよいだろう。安打数が同じ10でも,20打席の場合と100打席の場合では意味が異なる。もっとも,打席数(出場試合数)が多い選手は,成績が同じでも優れているという評価になるかもしれないが。


いずれにせよ,分析にどのような変数を使うべきかは,各分野の固有科学が解答を出してくれる(固有科学から解答を見いだす必要がある)ということではあろう。

コメント    この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« ダメ出し:妙な数値表記 | トップ | ダメ出し:バグというのは早... »
最新の画像もっと見る

コメントを投稿

統計学」カテゴリの最新記事