主成分分析をやる にて
> 主成分分析を行う。
> respca <- prcomp(data0[, -c(1:3)])
というのは,まずい。
用いたデータには,試合数,打席数,安打数などの計数値と,長打率,安打率のような割合が混在している。このような場合には,変数は標準化したほうがよい(しない方がよいという観点もあるが)。
ということで,少なくとも,
respca <- prcomp(data0[, -c(1:3)], scale. = TRUE)
としたほうがよいと思われる。
また,長打率,安打率が使われている意味を考えると,安打数,二塁打数などというのも,打数(または打席数)に対しての率のデータにして使う方がよいだろう。安打数が同じ10でも,20打席の場合と100打席の場合では意味が異なる。もっとも,打席数(出場試合数)が多い選手は,成績が同じでも優れているという評価になるかもしれないが。
いずれにせよ,分析にどのような変数を使うべきかは,各分野の固有科学が解答を出してくれる(固有科学から解答を見いだす必要がある)ということではあろう。
※コメント投稿者のブログIDはブログ作成者のみに通知されます