教材のほうを先行させてしまいましたが、手の内を先に明かせば、案外この程度のものかと理解して頂けたのではないでしょうか。
統計だの確率など、コンピュータのプログラムでも活用しなければ、眠気だけを誘ってしまうかったるい学習科目に違いありません。それに『統計の学習』と『プログラム』は良く馴染みます。
ここで使用しているのはベーシック言語ですが、もしもあなたが若者で野心家なら『C言語』を学んで世界から遅れを取らないようにしていただきたいと思います。
平均値の推定:
ある母集団(平均値m、標準偏差δ)があって、無作為にn個のサンプルを取り出しては、平均を求めていくとという作業を限りなく繰り返していくと、各々の平均値の平均は母集団の平均値mに近づいていく。
各々の作業のnの平均値の平均は母集団の平均mに等しい。
平均値の標準偏差は母集団の標準偏差δの1/SQRnに等しい。
nが十分に大きければ、母集団がどのような分布であってもn個の平均xの分布は、平均m、標準偏差δ/SQRnの正規分布に近づくことが知られている。
この事実は1821年ラプラスによって述べられ、1901年になって厳密に証明された。これを中心極限定理という。
実用上は、nが25以上ならば、xの分布は正規分布によって相当によく近似できる。
例えば、平均150、標準偏差8の母集団から、大きさ25の無作為標本を抽出したとすれば、標本平均xの分布は、平均150、標準偏差8/SQR25=1.6の正規分布で近似できる。(学研エリア教科辞典13数学より引用)
恐ろしく簡単で精巧な手品のような理論だと思います。
ここで、55講で比率pの範囲を求めた使い慣れた不等式の登場です。
(nの平均x)-(信頼区間Z)*δ/SQRn<平均値m<(nの平均x)+(信頼区間Z)*δ/SQRn ・・・・数式(1)
この不等式を解くべく組んだのが56講のプログラムです。
(信頼区間Z)*δ/SQRnを誤差とみなし、eとおいてnを求めたのも55講と考え方はまったく同じです。また、母集団Nとサンプル抽出数が近いときの補正量SQR((N-n)/(N-1))の使い方も比率pを求めたのと同様のものとなります。
一連のプログラムでは、信頼区間も任意に設定できるようにしてありますので、90%信頼区間、99%信頼区間でのmの範囲を求め、この数式の特性を理解してください。
また、母集団数Nとサンプル抽出数nとの関係などNとnにいろいろな値を入力して試してみてください。
教科書の次第によれば、小標本を考察する手段に『t分布』というものがあります。このノーハウはイギリス人ゴセットという人によってなされたということです。
数式(1)の(信頼区間Z)を『変数t』に置き換えたものです。・・・この変数tについては、「t分布表」というものが用意されており、nと信頼区間から、代入すべきtの数値を得て、数式に代入して答を得る仕組みになっています。
例えば、n=10、xの平均=158、そのサンプルの標準偏差=4.6とすれば、母集団平均mの95%信頼区間(これを分布表では、自由度10-1=9、危険率100%-95%=0.05という表現をする)のtの値はt=2.26だから、158-2.26*4.6/SQR10<m<158+2.26*4.6/SQR10 すなわち154.7<m<161.3となります。
これを、大標本として計算すると、155.15<m<160.85となります。
また、このとき、母集団数Nが25として、補正計算すると、156.22<m<159.78ということになります。・・・・この誤差が大きいと判断するか小さいと判断するか人それぞれだと思います。
もう一つ、『ボアソン分布』というというものが、あります。これは二項分布において、pが極めて小さい場合、nを相当大きくしなければ正規分布で近似することは困難である。したがって、この場合は次のような確率分布で近似するのが良い。
二項分布で、平均値n*p=mを一定にし、nをだんだんに大きくしていくと次のような分布に近づく。
P(x)=m^x*e^-m/FACTx
この分布を『ポアソン分布』といいます。
(以上、学研のエリア教科辞典を教科書とさせてもらいました。この書籍は1976年4月に初版が発行され、私が持っているのは第10刷です。31年前の詰め込み教育酣の頃の書籍です。矢野健太郎氏が監修だなんて時代を感じますね)
統計だの確率など、コンピュータのプログラムでも活用しなければ、眠気だけを誘ってしまうかったるい学習科目に違いありません。それに『統計の学習』と『プログラム』は良く馴染みます。
ここで使用しているのはベーシック言語ですが、もしもあなたが若者で野心家なら『C言語』を学んで世界から遅れを取らないようにしていただきたいと思います。
平均値の推定:
ある母集団(平均値m、標準偏差δ)があって、無作為にn個のサンプルを取り出しては、平均を求めていくとという作業を限りなく繰り返していくと、各々の平均値の平均は母集団の平均値mに近づいていく。
各々の作業のnの平均値の平均は母集団の平均mに等しい。
平均値の標準偏差は母集団の標準偏差δの1/SQRnに等しい。
nが十分に大きければ、母集団がどのような分布であってもn個の平均xの分布は、平均m、標準偏差δ/SQRnの正規分布に近づくことが知られている。
この事実は1821年ラプラスによって述べられ、1901年になって厳密に証明された。これを中心極限定理という。
実用上は、nが25以上ならば、xの分布は正規分布によって相当によく近似できる。
例えば、平均150、標準偏差8の母集団から、大きさ25の無作為標本を抽出したとすれば、標本平均xの分布は、平均150、標準偏差8/SQR25=1.6の正規分布で近似できる。(学研エリア教科辞典13数学より引用)
恐ろしく簡単で精巧な手品のような理論だと思います。
ここで、55講で比率pの範囲を求めた使い慣れた不等式の登場です。
(nの平均x)-(信頼区間Z)*δ/SQRn<平均値m<(nの平均x)+(信頼区間Z)*δ/SQRn ・・・・数式(1)
この不等式を解くべく組んだのが56講のプログラムです。
(信頼区間Z)*δ/SQRnを誤差とみなし、eとおいてnを求めたのも55講と考え方はまったく同じです。また、母集団Nとサンプル抽出数が近いときの補正量SQR((N-n)/(N-1))の使い方も比率pを求めたのと同様のものとなります。
一連のプログラムでは、信頼区間も任意に設定できるようにしてありますので、90%信頼区間、99%信頼区間でのmの範囲を求め、この数式の特性を理解してください。
また、母集団数Nとサンプル抽出数nとの関係などNとnにいろいろな値を入力して試してみてください。
教科書の次第によれば、小標本を考察する手段に『t分布』というものがあります。このノーハウはイギリス人ゴセットという人によってなされたということです。
数式(1)の(信頼区間Z)を『変数t』に置き換えたものです。・・・この変数tについては、「t分布表」というものが用意されており、nと信頼区間から、代入すべきtの数値を得て、数式に代入して答を得る仕組みになっています。
例えば、n=10、xの平均=158、そのサンプルの標準偏差=4.6とすれば、母集団平均mの95%信頼区間(これを分布表では、自由度10-1=9、危険率100%-95%=0.05という表現をする)のtの値はt=2.26だから、158-2.26*4.6/SQR10<m<158+2.26*4.6/SQR10 すなわち154.7<m<161.3となります。
これを、大標本として計算すると、155.15<m<160.85となります。
また、このとき、母集団数Nが25として、補正計算すると、156.22<m<159.78ということになります。・・・・この誤差が大きいと判断するか小さいと判断するか人それぞれだと思います。
もう一つ、『ボアソン分布』というというものが、あります。これは二項分布において、pが極めて小さい場合、nを相当大きくしなければ正規分布で近似することは困難である。したがって、この場合は次のような確率分布で近似するのが良い。
二項分布で、平均値n*p=mを一定にし、nをだんだんに大きくしていくと次のような分布に近づく。
P(x)=m^x*e^-m/FACTx
この分布を『ポアソン分布』といいます。
(以上、学研のエリア教科辞典を教科書とさせてもらいました。この書籍は1976年4月に初版が発行され、私が持っているのは第10刷です。31年前の詰め込み教育酣の頃の書籍です。矢野健太郎氏が監修だなんて時代を感じますね)
http://w-master.net/se/rf6FR/
http://tamotamo.net/mote/AZ96D/