goo blog サービス終了のお知らせ 

QT Lab.品質・技術研究室

技術者のための品質工学、品質管理、統計学、機械設計、信号処理を
解説します。

第18回品質管理検定 2級 問3の解説 その2

2014-10-11 10:02:34 | 品質管理検定

 前回、前々回と中心極限定理とそれを使った分散の計算式の導出について説明しました。
中心極限定理は実体験しないとなかなか理解が進まないと思います。いずれ、体験ツールの公開をします。

 さて、いよいよ、問3の解説をします。まず、問題の概要は、
ある会社で製品の原料をロットで購入し、その原料の特性xが製品品質に大きく寄与している。いままで、xの母平均;μは8.0であったが、xが小さくなったのでは、という指摘があったので、ランダムに9ロット選びxを計測した結果、その平均は mx=7.0、偏差平方和;S=12.0 となった。以下3通りの条件のもとで検証を行った。

 という主題であり、以下①~③の設問があります。今回は①について解説します。

① H0:μ=μ0(=8.0) H1:μ<μ0 の検定を行いたい。前回調査では原料のばらつきは安定していて母分散はσ^2=1.1^2 であった。今回も母分散はかわらないものとして、有意水準5%で検定した場合、検定統計量の値は(1)となり、棄却限界値は(2)であり、その結果、この検定結果は有意(3)である。

 という問で、(1)~(3)を選択肢から選ぶものです。

 この問題のかぎは、「今回も母分散はかわらないものとして」という一文です。現実の品質管理では、このような前提をたてるのはいかがなものか、と思います。もし、母分散がかわってしまっていたとしたら、せっかく検定をやって得た結論も意味がないものとなってしまいます。 まぁ、今回はこれはおいておき・・・

 帰無仮説H0は 「今までの平均と今回の平均がかわらない。」というもので、これが否定されると「今までの平均と今回の平均はちがう」ことになり、今回の平均が今までの平均よりも小さければ、「今回の平均は今までの平均より小さい」ということになります。

 今までの原料の母分散;σ^2=1.1^2(つまり標準偏差が1.1ということです) で、これは平均群の分散ではありません。

 さて、今回無作為抽出した9ロットの原料で計測したxの平均;mxが7.0だったわけです。そして、その偏差平方和;Sは12.0です。偏差平方和;S(=12.0) とサンプル数;n (=9)ですから、その分散;s^2 は、s^2=S/(n-1)=12/(9-1)=1.5になります。なお、①の問では、s^2は使いません。

 前提として、ばらつきは過去と変わらないので、z検定を行います。サンプル平均;mx と母平均;μ0  母分散;σ^2 そして、サンプル数;n を使った式が存在します。

 z=(mx-μ0)/ (σ^2 / n)^0.5 という式です。本当は分母をルート記号でくくったものが一般的な記述になります。

 そして、この分母の式こそ、中心極限定理の利用になります。

前回のブログ 「なぜ、不偏分散の計算では( n-1 )で割るのか?」に

(mx-μ)^2の期待値から( mx-μ )^2 =σ^2/n という式を導いていますが、この式より、

(mx-μ)^2 / (σ^2/n)=1 になります。そして、当然

(mx-μ0)/ (σ^2 / n)^0.5=1でもあります。

つまり、先ほどの zの式は

(mx-μ0)が (σ^2 / n)^0.5の何倍か?を求めているのです。zが1に近ければ、新たに抽出したサンプル平均 mx とμが違っていても、新たに抽出したサンプルを含む母集団は前回までとおなじであり変質していない、と判断できるのです。

そして、zがある値のとき、変質していないという確率が決まり、それが5%になるzの値を 「有意水準5%の棄却限界」といいます。その値は標準正規分布表からみつけることができます。
 今回はmx<μ0という片側検定ですから、標準正規分布表で値が0.05になる z の値が5%有意水準の棄却限界です。標準正規分布表では、z=1.64で0.0505 z=1.65で
0.0495 ですから、z=1.645くらいで0.05になりそうです。
 実は、これが(2)の答になります。しかし、mx-μ0<0ですから、zは負の値になります。選択肢には、(カ)-1.645があるため、(2)の答は(カ)です。

 (1)はz=(mx-μ0)/(σ^2/n)^0.5=(7-8)/(1.1^2/9)^0.5=-2.727 になり選択肢には(ア)-2.727があるため、(1)の答は(ア)になります。

 そして、この値は棄却限界の-1.645よりも大きいので、有意となりH0の仮説は否定されます。したがって、(3)は(キ)”である” になります。

 (σ^2/n)^0.5 で割る理由が 『中心極限定理』 に基づいているのですが、多くの品質管理の教科書では十分な解説がされていません。難解だから割愛しているのでしょうが、やはり、参考程度でもよいので、中心極限定理を紹介し、それがもとになっていることを紹介するべきだと思います。

  次回、②の解説をします。

 

 


なぜ、不偏分散の計算では(データ数-1)で割るのか?

2014-10-04 07:42:59 | 品質管理検定

《誤記を修正しました》 サンプル平均群の分散をV=s^2と記述していましたが、
               Vm が正解です。申し訳ありませんでした。

 『第18回品質管理検定2級問3の解説その1』 で触れましたように、『中心極限定理』 という特性は体感しないとその内容は実感できないのですが、統計学上のいろいろな公式は、この定理より導き出されています。

 そのなかのひとつが不偏分散をもとめる公式です。不偏分散;V=s^2 は、偏差平方和;Sを(n-1)で割って求めます。n はデータ数です。なぜ、(nー1)で割るのか?について理解に苦しんだり、その理由を調べてもなかなか明快な答をえることができなかったりする方は、とても多いのではないでしょうか?

 中心極限定理について復習します。その内容は2つあり、
 母集団がどのような形の分布をしていても、それが連続的な分布であれば、「その母集団から複数個(n個)のサンプルをとりだしてその平均:mx を計算する」、という行為を複数回くりかえすと、
① 複数のmxの値の分布は、正規分布にしたがう。
② そして、複数のmxの平均は母集団の平均:μ に近づき、複数のサンプル平均;mxの分散;Vm は母集団の分散;σ^2 のn分の1 (つまり、Vm=σ^2/n ) になる。
というものです。

 さて、母平均;μ、母分散;σ^2 の母集団から n個のサンプルを抽出します。そのデータ x1~xn (これをxi でこの後表現します)を計測します。そして、その平均;mx を計算します。

 mx はμ に近い値を取る可能性が大きいのですが、μ と一致することはまれです。実は、mx とμ の偏差;( mx-μ )の2乗の期待値が、サンプル平均群の分散;Vm=σ^2/n になります。
 つまり、( mx-μ )^2 =σ^2/n です。
  一方、母集団から抽出したn個のサンプルのうちのひとつのデータ;xi とmx の偏差の2乗を総和すると、サンプル群の偏差平方和;S になります。
  S=Σ( xi-mx )^2 です。
 そして、私たちが推定したいのは母集団の分散;σ^2 ですが、これは、( xi-μ )^2の期待値になります。 
 ここで、Σ( xi-μ )^2 の期待値は、( xi-μ )^2 のサンプル数倍になりますから
 Σ( xi-μ )^2=n σ^2 になります。
 では、↑ の式の左辺を変形します。

 Σ( xi-μ )^2=Σ( xi-mx+mx-μ )^2=Σ{( xi-mx )+( mx-μ )}^2
=Σ(xi-mx )^2+Σ2( xi-mx )( mx-μ )+Σ( mx-μ )^2
=Σ(xi-mx )^2+2( mx-μ )Σ( xi-mx )+Σ( mx-μ )^2
となります。( mx-μ )は変数ではなく定数であるため、Σの外に出すことができます。

 さて、Σ( xi-mx )ですが、『第18回QC検定2級 問1の解説』 にも書いたように各データと平均の正負を考慮した距離の総和はゼロになります。したがって、上式は
=Σ(xi-mx )^2+Σ( mx-μ )^2
になります。この結果、
n σ^2=Σ(xi-mx )^2+n ( mx-μ )^2 です。
そして、右辺第1項 Σ(xi-mx )^2 は前述のようにS であり、第2項 n( mx-μ )^2 はn σ^2/n =σ^2 です。この結果、上式は、
 n σ^2=S+σ^2 となります。私たちが求めたいのは母分散;σ^2 ですから、
 n σ^2-σ^2=S となり、( n-1 ) σ^2=S より、

 σ^2=S/( n-1 ) となります。

 この式への展開のミソは、母集団から抽出したn個のサンプルの平均;mx は、母集団の平均;μ と一致することはなく、μ のまわりでばらついた値として現れる。そして、そのばらつき具合は、σ^2/n になる。ということを理解することです。

 このように、中心極限定理はいろいろなところで活用されています。


第18回QC検定 2級 問3 の解説 その1

2014-09-24 20:41:01 | 品質管理検定

 第18回QC検定2級の問題で、問2はサンプリングの問題ですから特に解説の必要はないと思います。

 問3の解説をします・・・が、まず、品質管理検定の受験用参考書では、あまり、というか、ほとんど十分な解説がなされていないとても重要な統計学上の定理を理解する必要があります。

 それは、『中心極限定理』というものです。これを理解することで、次回解説する、母集団の分散を推定するときに、サンプルで計算した偏差平方和;S をサンプル数-1、つまり、n-1で割るのか?が納得できると思います。

 中心極限定理とは・・・?統計学的に厳密な解説ではありませんが理解しやすいことばで説明すると
  母集団がどのような分布であれ、その分布が連続していれば、「その集団からn個のサンプルを取り出し、その平均:xi_bar を求める」、という行為を多数回くりかえして平均の群を作ります。nを大きくしていくと、その平均の群の分布は正規分布にしたがいます・・・①

 矩形分布であろうと、バスタブ分布であろうと、母集団の分布が連続していれば、この性質が成立します。当然、母集団が正規分布にしたがうのであれば、n=4 程度でも成立します。

 そして、その平均群の平均(xi_bar)_barは母集団の平均:μの推定値となり、その
平均群の分散:s ^2は母集団の分散:σ^2のn分の1、つまり、s^2=σ^2 / n に近づきます。・・・②

 このようなおどろくべき性質があるのですが、いくら本を読んでもなかなか理解できないと思います。実際に実験して体感するのが納得の早道です。

 この定理、というか性質を体感できる実験ツールをExcelで制作しました。これをこのブログにアップしようと思ったのですが、gooさんのブログではExcelファイルなどをアップできないようです。(もし、できるのならどなたか教えてください!)

拙書『めざせ!最適設計 実践・公差解析』 を購入していただくと、このツールがダウンロードできるのですが・・・

 いずれ、ホームページ版 『QT Lab. 品質・技術研究室』 の引っ越しが済んだら、なんとかします。

 本日はここまでにしますが、問3を本質から理解するためには中心極限定理について少し勉強する必要があることをご理解ください。 次回から解説をします。

 


第18回QC検定2級 問1の解説

2014-09-23 13:57:47 | 品質管理検定

 前回のブログでも書きましたように、第18回QC検定2級の問1はあまり良い問題とは
いえません。なぜならば、本当にまじめに品質管理を行っているのであれば、この問題の
ような場面は発生しないからです。

 問題は転載禁止なので、問題の概略を書いたのちに解説をします。

《 第18回品質管理検定2級 問1》 
 ある工場で生産されている部品は設置時期が異なる2台の同じ機械で生産されいる。
1号機で生産した部品を n1=10個のサンプルをとり、その特性値として x1~x10の
データを得た。
同様に2号機で生産した部品を n2=8個のサンプルをとり、その特性値として y1~y8の
データを得た。

 両データから基本統計量を計算し、1号機生産部品の特性値の平均:mx(原本では xbar)
偏差平方和:Sx、2号機生産部品の特性値の平均:my(原本ではybar)、偏差平方和:Sy
を求めた。

 n1=10 mx=6.4 Sx=26.40  n2=8 my=5.5 Sy=18.00

 ‐問題‐
 生産機械は1号機、2号機とも同じ機械であるから、両者のデータを混合した統計量を
求めたい。
(A) 1号機のサンプルと2号機のサンプルは数がちがうので
   重平均:mw を計算する式と値を求めなさい。(重平均が正解)

(B)両者を混合したときの分散:V を計算する式と値をもとめなさい。

 という問題です。(A)はまだしも、(B)はまったくナンセンスな問題です。なぜなら、
こんな回り道をしなくても、品質管理がしっかりなされていれば、x1~x10、y1~y8の
データは記録されているので、この18個のデータから直接 V を計算すればよいからです。

 品質管理の知識や経験を問う問題ではありません。問題制作者の問題制作意識がずれて
いるように感じます。

 では解説します。
(A) 小学校で学習したように、基本的に平均と平均を使ってそれらの全体平均を計算しては
  いけません。ただし、データ数が同じ場合は計算結果は一致しますが、思考としては
  正しくありません。

  では、どのように計算するのか?ですが、平均とは複数のデータ群の中心付近を
  推定するための指標です。
  平均の計算は、データの総和をデータ数で割ります。
  この問題では、x1~x10の10個のデータの平均:mx とy1~y8の8個のデータの
  平均:myの18個のデータの平均を求めるわけですから、全データの総和を
  データ数(18個)で割ることになります。

   x1~x10の総和は:Σxi は mx=Σxi÷n1 ですから Σxi= n1 mx になります。
  同様に、y1~y8の総和:Σyi= n2 my になります。

   したがって、全体の平均:mwは ΣxiとΣyi を足したものを n1とn2 を足した値で
  割ればよいことになります。
これを式にすると、mw=(n1 mx+n2 my)/(n1+n2)になり、問題(1)はウ
  になります。
   問題(2) もウになり、その計算結果を問う問題(3)もウ(6.00)になります。

(B)問題には V を計算する式の途中までが記載されています。実はこれがクセモノです。
  その式を記載しますと

   V={Σ(xi-mw)^2+Σ(yi-mw)^2} / (n1+n2-1)
    ={Σ(xi-mx+mx-mw)^2+Σ(yi-my+my-mw)^2} / (n1+n2-1)

  となっています。そして、この式をこのまま変形させていくととんでもない時間と
  労力が必要となります。

   ここで、xi-mx をX、mx-mw をA  yi-my をY、my-mw をB とおきます。
   すると、2行目の式は

   V={Σ(X+A)^2+Σ(Y+B)^2} / (n1+n2-1)となり、分子を
  展開すると

    ={ΣX^2+2ΣAX+ΣA^2 +ΣY^2+2ΣBY+ΣB^2}
  となります。 

   ここで、ΣX^2=Σ(xi-mx)^2 ですから、xiの偏差平方和:Sxになります。
   また、ΣAX=AΣXになります。AがΣの前に出る理由は、Aは変数ではなく
  定数だからです。
   
   ΣX=Σ(xi-mx)となるのですが、データとその平均の関係で、各データから
  平均を引く、つまり、各データの平均からの距離を求め、その総和を計算すると
  ゼロになります。ご自身で確認してみてください。

   つまり、{}内の第2項はゼロになります。そして、第3項は
   ΣA^2=Σ(mx-mw)^2= n1(mx-mw)^2となります。mx、mwともに変数では
  なく定数だからです。

   第4項から第6項も同様に考えると、
   
   V={Sx+Sy+n1(mx-mw)^2+n2(my-mw)^2}/(n1+n2-1)となります。

   したがって、問題(4)はウになります。そして、問題(5)はキ、その値を
  求める問題(6)はイ(2.824)になります。

 先にも書きましたように現実問題としてこのような計算をするシチュエーションは
 まず考えられませんし、このような計算方法をとるべきではない、と私は思います。