裏 RjpWiki

Julia ときどき R, Python によるコンピュータプログラム,コンピュータ・サイエンス,統計学

「標本分散」ってなんだ?

2022年01月31日 | ブログラミング

「不偏分散」の話をするときに,それに対応するものを「標本分散」と呼ぶ人がいる。

「標本から計算した『分散』は母分散の推定値」,ならば不偏分散も『分散』も標本分散ですね。そして,『分散』は母分散から偏っているので,それを不偏にするのが不偏分散。

つまりよく使われている「標本分散」というのは何かというと,正確には「標本から計算した不偏ではない分散」でしょう。英語だと不偏分散は unbiased variance,不偏でない分散は単に variance です(sample variance とは言いません)。

ちなみに,Python では指定しないと不偏ではない分散を計算します(不偏分散は ddof=1 を指定する)が,R や Julia では不偏分散を計算します(R では分散を計算させるオプションがない。Julia では corrected=false を指定する)。

このような曖昧な用語法は,たぶん Excel の和訳が不適切だった名残だと思います。 Excel が日本語されて使えるようになった頃,統計用語の和訳がめちゃくちゃでした。今でも残っている迷訳があります。

Python

>>> import numpy as np
>>> x = np.arange(10) + 1
array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])
>>> np.var(x)
8.25
>>> np.var(x, ddof=1)
9.166666666666666

Julia

julia> using Statistics
julia> x = 1:10
1:10
julia> var(x)
9.166666666666666
julia> var(x, corrected=false)
8.25

R

> x = 1:10
> var(x)
[1] 9.166667
> n = length(x)
> var(x) * (n-1)/n
[1] 8.25

 

 

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

PVアクセスランキング にほんブログ村

PVアクセスランキング にほんブログ村