昔メモってたのを見つけたので、まあ保存も兼ねてここに書いておきます。
栄養士さんがまず、理解に苦しむだろうなって思うのが確率変数です。
確率変数 X なんてよく見ますが、実は関数です。例えば 長さが1の正方形を考えて、その点が患者さんを表すとすると、正方形の点はある観測値(患者さんの何かの観測データ)を持ってるとすれば、正方形の点の集合から実数への関数が作れます。
これが確率変数です。今これをXで表すと、観測値がaと言う人の人数を総数で割ったものが確率ですが、今の場合それが観測値がaという点の集合の面積に当たります。
普通、面積と言わずに測度というのです。aの値に対して、その観測値を持つ人たちのつまり正方形の中の点の集合の面積(測度)を対応させたものが、確率分布です。
確率変数が、正規分布に従うとは、今考えた、確率分布が正規分布になってる場合を言います。
今、観測値を二つとってきたとします。それ自体は数ですが、これは 何らかの確率分布に従う別々の確率変数 X Y と見るんですね。たいてい正規分布に従っているとしてますよね。
観測値の平均は (X+Y)/2 という新しい確率変数を考えてることになります。この新しい確率変数がどんな確率分布に従うかは計算でわかります。
よくやるのはt値を計算して、そうするとこれに対応する確率変数が今計算した値になった、この確率変数の確率分布はわかっているので、計算で求めたt値がどんな確率で出てくるかわかる、
例えば、5%以下の確率だったら、普通起こらないことと考えて、でも実際その数値が出てきたんだから起こった、起こるはずのない数値が出てきたんだから矛盾と言うのが帰無仮説の話ですよね。大抵この場合は、予め何かを仮定していて、背理法でその仮定の否定が正しいことを主張するわけですよね。
数値をいじってるようで、実は確率変数を足したり引いたりして、新しい確率変数を作り出して、その確率分布が計算できるから、それが起きそうな確率のところのとる値が信頼区間です。
でもなかなか理解できないだろうなあ、って思います。こんな関数、高校の数学では、出てこないですから。
ついでに書いておくと、確率変数(X+Y)/2 は 正方形の点の 二つのペア に 実数の値が対応した関数です(正方形の集合の二つの直積集合から実数の集合への関数) この場合の面積というか測度は それぞれの測度の積です。
n個の観測値の平均だったらn個の正方形のペアですが、では、大数の法則はどうなるか? nを無限大に飛ばすんですよね。この際、あらかじめ正方形の無限個のぺア(無限個の直積集合)は作れますが、この場合の測度は?
ある条件を満たせば作れるそうですが、その条件をちゃんとチェックするのが確率論、しないのが統計学なんだそうです。コルモゴロフの拡張定理というのだそうです。
少し専門的になりますが、定理を見る限り、射影極限(Projective Limit) をとってるように見えます。そうなってるというのが、条件のような、ちなみに今の場合は、成り立ってるので、測度は作れます。(この条件なしでも、もっと難しい手法(関数解析的な手法らしい)でも測度は定義できるらしいのですが)。
確率変数をちゃんと定義しておくと
Ω 空でない集合
m Ω上の確率測度 (つまり m(Ω)=1 なる測度)
確率変数 Xは、 Ωから実数 への(可測)関数 で定義されます
確率分布 f は、 f(a)=m(X^{-1}({a}) で定義できます。(ただしX^{-1} は逆像)
となります。