「不偏分散」の話をするときに,それに対応するものを「標本分散」と呼ぶ人がいる。
「標本から計算した『分散』は母分散の推定値」,ならば不偏分散も『分散』も標本分散ですね。そして,『分散』は母分散から偏っているので,それを不偏にするのが不偏分散。
つまりよく使われている「標本分散」というのは何かというと,正確には「標本から計算した不偏ではない分散」でしょう。英語だと不偏分散は unbiased variance,不偏でない分散は単に variance です(sample variance とは言いません)。
ちなみに,Python では指定しないと不偏ではない分散を計算します(不偏分散は ddof=1 を指定する)が,R や Julia では不偏分散を計算します(R では分散を計算させるオプションがない。Julia では corrected=false を指定する)。
このような曖昧な用語法は,たぶん Excel の和訳が不適切だった名残だと思います。 Excel が日本語されて使えるようになった頃,統計用語の和訳がめちゃくちゃでした。今でも残っている迷訳があります。
Python
>>> import numpy as np
>>> x = np.arange(10) + 1
array([ 1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
>>> np.var(x)
8.25
>>> np.var(x, ddof=1)
9.166666666666666
Julia
julia> using Statistics
julia> x = 1:10
1:10
julia> var(x)
9.166666666666666
julia> var(x, corrected=false)
8.25
R
> x = 1:10
> var(x)
[1] 9.166667
> n = length(x)
> var(x) * (n-1)/n
[1] 8.25
※コメント投稿者のブログIDはブログ作成者のみに通知されます