裏 RjpWiki

文字通り,RjpWiki の裏を行きます
R プログラム コンピュータ・サイエンス 統計学

シミュレーション結果からみると,かなり極端なことを言っておられるのでは?

2014年02月11日 | ブログラミング

久保さんがいつも言っておられるのだけど,今回特に明確に述べられていたので,シミュレートしてみるとあれれのれという結果になったので,ちょっとご意見を伺いたいなぁ。

A*X と B/X (A, B は定数もしくは乱数) の間で相関を調べたり、回帰をするのはアブないですよ

というのを,書き直されたと思うので,以下の方が正しいのだと仮定して

X/A と B/X (A, B は定数もしくは乱数) の間で相関を調べたり、回帰をするのはアブないですよ

ちょっと,シミュレーションしてみました

定数だと確かに相関は高くなる。しかも,曲線で完全な相関になる。つまり,スピアマンの順位相関計数を取ると 1 になる!!!

しかし,乱数だとその大きさ(オーダー)により,相関係数は 0 に近くなることもある。

乱数ということは,でたらめということではなく,x と相関がないというだけの話か?A, B と相関がある変数の場合はどうなのだろうか?

どのあたりのオーダーの値が実際に誤用されるのか分からないけど,一概に負の相関ということも言えないのではないかなと。(たぶん,問題になるような範囲で使われているから久保さんが指摘しているんどろうけど)

タイトル部分に示している数値が,相関係数

n <- 1000
set.seed(1234567)
layout(1:3)
x <- rnorm(n, 1000, 100)
a <- rnorm(n)
b <- rnorm(n)
x.by.a <- x/a
b.by.x <- b/x
plot(x.by.a, b.by.x, main=cor(a.x, b.by.x))
x <- rnorm(n, 1000, 100)
a <- rnorm(n, 2, 0.2)
b <- rnorm(n, 1, 0.1)
x.by.a <- x/a
b.by.x <- b/x
plot(x.by.a, b.by.x, main=cor(a.x, b.by.x))
a <- 2
b <- 1
x.by.a <- x/a
b.by.x <- b/x
plot(x.by.a, b.by.x, main=cor(a.x, b.by.x))
layout(1)

x, a, b, それぞれの間の相関係数が 0.8 であるような3次元正規乱数を生成して,x/a, b/x の二変数の相関係数を計算してみたけど,ほとんど 0 という結果になったのだけど。どこか,誤解しているのかなあ?

> library(MASS)
> r <- 0.8
> d <- mvrnorm(1000, mu=rep(0, 3), Sigma=matrix(c(
+ 1, r, r,
+ r, 1, r,
+ r, r, 1), 3), empirical=TRUE)
> x <- d[, 1]*50+100
> a <- d[, 2]*100+200
> b <- d[, 3]*500+100
> cor(cbind(x, a, b))
    x   a   b
x 1.0 0.8 0.8
a 0.8 1.0 0.8
b 0.8 0.8 1.0
> x.by.a <- x/a
> b.by.x <- b/x
> cor(x.by.a, b.by.x)
[1] -0.007284288

コメント

いつもの戦略---ブラフ

2014年02月04日 | 雑感

>> (マイクロソフト)では、データ量にかかわらず、これまで使われていなかったデータから付加価値を生み出すことが重要だと考える。そして、データサイエンティスト のような特別な人材ではなく、現場の社員が直接データを活用できることを目指すという。

>> そのために(マイクロソフト)が着目したのが、10億人のユーザーがいるというExcelだ。通常Excelは100万件までのデータしか扱えないが、2月に登場するアドインを組み込むことで、パソコンのメモリーの限界までデータを利用できるようになる。

> なんだかんだで、データ分析で最も使われているソフトがExcelだと思う。
> Excelで大量データが扱えるようになるのは、大歓迎。
> ExcelのBI機能の進化に期待したい。

マイクロソフトという会社は,今までも「近々こういうすごいことをやりますよ」というブラフをかまして,顧客をつなぎ止めるという戦略を立てていた。

それが,うまくいったこともあるし,嘘っぱちに終わったこともある。(ご期待に沿えずみませんでしたと謝ったことはないように思う)

Excel で,ビッグデータが扱えるようになる???

どの程度のビッグデータ??どのように扱えるようになるの?

データ範囲を設定するのをGUIでやらされるのは,ご勘弁戴きたい。

コメント