goo blog サービス終了のお知らせ 

QT Lab.品質・技術研究室

技術者のための品質工学、品質管理、統計学、機械設計、信号処理を
解説します。

ハラノビスの距離の平均はなぜ項目数と一致するのか?Ⅱ(再掲載)

2014-09-16 21:08:41 | 品質工学
 2014年4月1日のブログの引っ越しがうまくいかなかったようなので、再掲載します。

月27日にアップした「マハラノビスの距離の平均はなぜ項目数と一致するのか?」の説明をします。


もともと多変量解析の『判別分析』で用いられていた『マハラノビス距離』ですが、項目数;k個からなるサンプルをn個つかって手順どおりの計算をすると、n個のマハラノビス距離の2乗値が求まります。そして、このn個のマハラノビス距離の2乗値の平均を計算するとその値はkとなり、項目数と一致します。


品質工学のMT法では、マハラノビス距離の2乗値を項目数(k)で割るので、その平均は1になります。各サンプルのマハラノビス距離の2乗値をkで割る処理をおこなうことにより、項目数の多少にかかわらず、マハラノビス距離の2乗値は1の近辺が頂点となり、グラフの右すそ方向に扁平な分布となり、解析結果が認知しやすくなります。また、マハラノビス距離の2乗値の平均が1になれば演算が正しく実行されているという確認ができるというメリットがあります。


『判別分析』でのマハラノビス距離の原理的な考え方では、サンプル群のある項目データ群は正規分布にしたがうという考えを各項目について仮定しているようですが、実際、項目データが正規分布していなくても、マハラノビス距離の2乗値の平均は項目数;kに一致します。不思議にみえるこの現象の原因について解説を始めます。


k項目からなるn個のサンプルを収集し、各項目ごとに平均;μと標準偏差;σを求めるところからマハラノビス距離の計算は始まります。このときのσは偏差平方和;Sを(n-1)ではなくnで割って平方根で開いた母標準偏差の推定値です。


つぎに、各サンプルの項目データからその項目の平均;μを引き、標準偏差;σで割り、『基準化』した値を計算します。


たとえばサンプルを行方向、項目を列方向に配列すると、(n行k列)の行列となり、列方向に並ぶ各項目の平均はゼロ、標準偏差は1のデータ群に変換されます。ここで、基準化された値をu として、行番号を、列番号をjとして添えると、つぎのような配列になります。



つぎにこの基準化されたデータ群で項目データ間の相関係数;rを計算し、その結果をまとめた相関行列;R をつくります。このとき、対象となるデータ群は基準化されているため、いろいろと便利な特徴がつかえますのでそれらを有効に活用していきます。


たとえば、項目1と項目2の相関係数;r12は、つぎの手順で求めます。


まず、項目1と項目2のデータ群の偏差平方和;S1 ,S2を計算します。このとき、もともとの各項目データはその項目の平均と標準偏差で基準化されているため、


S1=S2=n になります。


同様にすべての項目においても偏差平方和;Sj=n になるというのが第1の特徴です。


つづいて、項目1と項目2のデータ間の積和;S12を計算します。このとき、基準化した項目データの平均はゼロですから、S12はui1とui2を掛けあわせたものを総和した値になるというのが第2の特徴です。


なお、基準化したデータでのこれらの特徴の導出については本題とそれるので割愛しますが、拙書 『試して究める!品質工学 MTシステム解析法入門』でこれらの特長を導出していますので興味のある方はそちらを参照願います。


したがって、項目1と2の相関係数;r12は、r12=Σu 1j u 2j / n という簡単な形であらわすことができます。実はこの式は、共分散を計算する式そのものです。


つまり、基準化したデータ群の項目間相関係数は項目間の分散・共分散であり、相関行列;R は分散・共分散行列;V と一致します。


さて、基準化したデータ群の情報である(n行k列)の行列をU とします。そして、その行と列を入れ替えた行列であるU の転置行列をU T (k行n列)とすると


V =(U T U )/n になります。このときV は(k行k列)の正方行列となります。


さらに、その逆行列が計算できる場合、V(k行k列)は正則行列になります。


サンプルごとのマハラノビス距離の2乗値を計算する計算式は、相関行列;R の逆行列であるR-1 に対して、前からサンプルの項目データを基準化したk次の行ベクトル;u 1j=(u11,u12,・・・u1k)を掛け、


そのあと後ろから行ベクトルの転置行列であるk次の列ベクトル;u 1jT を掛けます。その結果、ひとつのD12 (サンプル1のマハラノビス距離の2乗値)が求まります。ここまでが一般的なマハラノビス距離の2乗値を求める作法になります。


ではここで、n個のサンプル群全体でマハラノビス距離の2乗値を求めるために、


個別サンプルデータを基準化したk 次の行ベクトルをn行配置した(n行k列)の行列;u ij を前から、R -1 に掛けます。つづいてその転置行列;u ijT を後ろから掛けます。


その結果、各サンプルのマハラノビス距離の2乗値を縦に並べた


n 次の列ベクトル;D 2 が得られます。式であらわすと


D 2=u 1j R -1 u 1jT となります。ここで、u 1j=U ,u 1jT =U Tですから


D 2=U R -1 U T です。さらに、R =V でしたから R -1= V -1 になります。


したがって、D 2=U V -1 U T になります。


このときD 2 は(n行1列)、U は(n行k列)、V -1 は(k行k列)、U T は(k行n列)の行列になっています。


ここで、「対角成分の和」、「固有和」、「跡」などと呼ばれるTraceという考えを使います。


Traceとは、正方行列の行と列の番号が一致する、つまり、最上段最左端から最下段最右端に配列された対角にならぶ成分を足しあわせた値です。このTraceの性質としてつぎの関係がなりたちます。


(1) Trace(cA )=cTrace A


(2) Trace( A+B )=Trace A+Trace B


(3) Trace( A B )=Trace( B A )


U V -1 U T の関係についてTraceを計算するとき


Trace( U V -1 U T )と記述されます。


ここで上記(3)の性質を使います。A = U V -1 B =U T とすると


Trace( U V -1 U T )=Trace( U T U V -1 )になります。


ここで前述の V =(U T U )/n を思い出してください。右辺のTrace( )内に


U T U があり、これはU T U =nV になります。したがって、


Trace( U T U V -1 )=Trace(nV V -1)となり、上記(1)の性質を使って


Trace(nV V -1)=nTrace(V V -1)になります。


そして、V V -1=E (k次元の単位行列)になりますから


Trace( U T U V -1 )=nTrace E となります。このとき、k次元の単位行列の対角成分の和はkになりますからTrace( U T U V -1 )=n k となります。つまり、


Trace( U V -1 U T )=n k です。


この結果よりサンプル群に含まれる個々のマハラノビス距離の2乗値を総和すると


n k になりましたから、n個のマハラノビス距離の2乗値の平均;D 2(mean)は総和をnで割って 


D 2(mean)=n k/n=k となり、項目数と一致することが確認できました。


私の記述が不十分なところもあると思われますので、十分なご理解を得られなかったら申し訳ございません。不足部分は後日追記していきます。

回帰の寄与率(決定係数)とは

2014-07-07 21:56:42 | 品質工学

x と y という一対のデータが複数組存在する場合、両者の因果関係を調査する目的で単回帰分析という統計手法が用いられます。

単回帰分析は入力;x と出力;y について一次の線形関係を調べ、単回帰式(方程式 y=ax+b)に関するふたつの回帰係数 a(傾き)とb(y切片)を求めることが第一の目的です。なお、統計学では一般的に傾きをb1y切片をb0としています。

x での実際の y の値と、その方程式により求めた y の推定値との差を『残差』 といいます。残差の2乗の総和が最小になるようにb1とb0を推定します。

また、求めた単回帰式が現実のデータ群にたいしてどれくらいあてはまりがよいか?を調べることも目的のひとつになります。あてはまりのよさをあらわす指標が、寄与率 (経済学では決定係数)と呼ばれる指標であり、R2で表示します。

Microsoft社のExcelでは、グラフウィザードを使い散布図を描いて、その散布図に単回帰直線を自動で引くことができます。さらに、オプション機能を使うことでグラフエリア内に、単回帰直線の方程式と寄与率;R2を記入することもできるので、すでに使いこなされている方も多いものと思います。

yb1x+b0という単回帰式を求めたとき、R2は必ず01の間の値をとります。そして、1に近いほど求めた単回帰式がデータに対してうまくあてはまっていることになります。

私が提唱している 回帰寄与率型SN はこのR2が重要な役割をはたしています。

また、回帰分析には 『ゼロ点回帰分析』 という方法もあります。これは、入出力関係が原理的に原点(00)を通る場合、y切片のある単回帰式ではなく y=b1 x という式にあてはめたい、という考えに基づき考案された回帰分析の一手法です。

本来、原理的に(00)を通る特性であっても、単回帰分析をおこなうと計測誤差などの影響で(00)を通らず、y切片があらわれる場合がほとんどです。当然、このとき残差の2乗の総和は最小になっています。しかし、y切片を無理やりゼロにするのがゼロ点回帰分析ですから、回帰式のあてはまりのよさは、単回帰分析よりもゼロ点回帰分析のほうが必ず悪くなります。

さらに不思議なことにy=-axbのような関係をもつデータ群にゼロ点回帰分析をおこない、あてはまりのよさの指標であるR2を求めると、なんと、R2 0 となることがあります。

R2は相関係数の2乗であるからマイナスになるわけはない!マイナスになるのはけしからん!と考える人もいますし、0(単回帰にまったくあてはまっていない状態)よりもR2が小さくなってしまうほど、あてはまりがひどいんだ、とR20をすなおにうけいれる人もいます。

Excel2007以前のバージョンは、散布図でのオプション機能もLINEST()という回帰分析を実行する関数もR2がマイナスになる計算をしていました。ところが、Excel2007以降、散布図のオプションはR2がマイナスになる計算をしているのに、関数LINEST() は絶対にマイナスにならない計算方法を採用し始めているようです。当然、両者のR2の結果は異なります。

そして、ゼロ点回帰分析で、R2 0にならないような関係のデータ群について求めたR2 の計算結果も両者で異なるという、大変由々しき問題が発生してしまいました。

先日の品質工学研究発表大会で交流がはじまった静岡品質工学研究会の方にこのことを教えていただき、いろいろとメールでディスカッションしました。 

私は、ゼロ点回帰式のあてはまりが悪い場合、R2 0 となってもまったく問題がない、という立場をとっています。それはつぎの事例から説明できます。

(x,y) の関係で 11) (22.2) (33.1 というデータ群にたいして、単回帰分析をおこなうと、b11.05 b00 つまり、y=1.05+0となります。そして、R2 0.993 になります。

一方、このデータ群に対してゼロ点回帰分析をおこなうと、b11.05 つまり、y=1.05xというゼロ点回帰式が求まります。そして、R2 0.993 になります。

つまり、R2 0 が存在する計算方法を採用した場合、このデータ群にたいして単回帰分析をおこなった場合とゼロ点回帰分析をおこなった場合の結果は一致します。しかし、R2 が必ずプラスになるゼロ点回帰分析の計算方法の場合、R2 0.999となり、単回帰のR2 と一致しないばかりか、その値よりも良好なあてはまりをしめしてしまいます。

私としては、この現象はR2 0になることよりも重大なあやまりであると思うからです。

ところで、先日 『BABY METAL』 がガガさんの全米ツアーの前座をつとめることをお知らせしましたが、昨日、なんとガガさんの日本ライブの前座をももクロちゃんが務めるという発表がありました。ガガさんの要請だそうです。びっくりです。

日産スタジアム2Daysまで、あと3週間をきりました。体調を整え、体力をつけておきます。

なお、BABYMETALの英国でのライブは、大成功だったようです。よかった、よかった!

 


QES2014に参加しました!

2014-06-27 22:54:39 | 品質工学

 6月26日(昨日)27日(本日)の2日にわたって品質工学研究発表大会2014が
開催され、両日参加してきました。
 いやぁ、じつに勉強になり、楽しい学会でした。
 まず、日ごろからメールなどでのやり取りしかできない遠方の方々とお会いでき
ことばを交わすことができました。
 また、ポスターセッション、小ホールでの檀上発表など、非常に勉強になり、
若輩ながら質問や助言をさせていただきました。
 また、私が勝手に師匠とあおぐ方が今年初めに体調をひどく崩されたのですが
今回、お元気なお姿を拝見でき、とてもうれしかったです。
 初日、学会が終了後、静岡品質工学研究会の方々の打ち上げに参加させて
いただきました。この研究会には、すごい先生方が参加されており、大変、勉強に
なりました。総合戦闘力は関西研究会に引けをとらないほどすごいポテンシャルです。
 今年も静岡研究会はびっくりするほど多くの発表をされています。尊敬します。
 『七人の侍』、『荒野の七人』、『オーシャンと11人の仲間』(オーシャンズイレブンという
リメイクの駄作ではなく)を彷彿します。とにかく、毎回20件くらいの発表をされている
研究会はほかにはありません。
浜松研究会も来年は発表をめざします。今、宣言します。

 本日は、私が研究会や大学院でお世話になっている産業技術大学院大学の
越水先生の指導をうけた方の発表や、日ごろから仲良くさせていただいている
増田技術事務所の増田代表の発表などを拝聴しました。しかし、増田さんの
お話は本当に聞き入ってしまいます。内容はいうにおよばず、すばらしい話術です。

 志ん生師匠ではなく圓生師匠の話術ですね。
 私は三平師匠をめざしますが・・・

また、私の書籍を購入していただいた方、何人かの方々にも声をかけていただけました。
(意外とわたしは有名人だったのです)

すごく充実した2日間でした。

 最後は妻と待ち合わせて、品川のシンガポール料理店にいき、マッドクラブをたらふく
ちょうだいしました。私が子供のころは、浜名湖にも 『どうまんガニ(ノコギリガザミ)』 と
いうワタリガニの仲間がいて、数年に一度くらい口にすることができました。(とても高価な
食材でした・・・)
 最近は漁獲高が激減し、かなり、そしてさらに高価な食材になってしまったようです。

今回800グラムくらいのサイズを2つ、別々の味付けでいただきました。
 とてもおいしかったです。また、行きたいお店です。

 そして、これが本題なのですが昨日のTBS23時からのNEWS23で、あの『BABYMETAL』の
特集が放映されていました。世界的に話題になっているということで!

ご覧になった方もいるかもしれませんね。

 別に政府の『COOL JAPAN』 で推していただくなくても、カノジョタチの魅力は全世界の
人々が共有できるすごいポテンシャルなんです。ほっといても、彼女たちはこれから
世界で躍進しますよ~! SU-METALの透明感があり、完璧な音程の歌唱力、
両脇のYUI,MOAMETALのかわいらしさと活動量、ほんとうは彼女たちの画像を
貼り付けたいのですが・・・  Cheap Trick やMETALLICA、そしてガガさんが
絶賛しているんですよ。

 ぜひ、検索して、彼女たちのライブをみてください。本当に、ゼッタイに感動します!
  私はYUIMETAL推しです!(たぶん、一番 Cool&beautifulで、ちょっと”隙”が
ありそうなところがとっても魅力的です) 

 そして、以前アップしたように、ももクロの夏菜子ぉ~↑↑が 浜松の『やらまいか大使』 に
任命されたのですが、一昨日、正式な就任式があったことを付け加えておきます。

 




 


回帰寄与率型SN比とは その2

2014-06-16 20:16:14 | 品質工学

 『回帰寄与率型SN比とは 』 で紹介した内容について、620日の『浜松品質工学研究会』 で

 発表する予定です。
 
発表内容をまとめたpdfファイル ↓ を掲載します。ご興味のある方はご覧ください。

           「sn.pdf」をダウンロード

 今後、回帰寄与率型SN比について、ダウンロードできる資料を継続的に掲載していきます。


回帰寄与率型SN比とは

2014-06-10 20:59:56 | 品質工学

 田口の動特性のSN比は、コンピュータが普及する以前に数理が提案されています。したがって、筆算や電卓(あるいは機械式計算機)での処理に対応するため、計算工程をなるべく減らす工夫がなされています。

 たとえば、機能の入出力関係をあらわすゼロ点回帰直線の傾き;βの2乗が『感度』の真値となるのですが、回帰計算によりβを求めてから2乗するのではなく、直接βの2乗を推定する計算を提案しています。

 また、ここからはあくまで個人的な想像になりますので間違いがあるかもしれません。

 田口の動特性のSN比では、全変動や誤差変動という概念から計算し、一般的な統計学の回帰分析で計算する平方和とは違う手段をとっています。

 本来統計学ではゼロ点回帰式のあてはまりのよさと残差(あてはまりの悪さになります)を、回帰平方和;SR、残差平方和;Seとして定義し、全体(出力)の偏差平方和;STとして、STSRSe の関係を検証します。しかし、この計算を実施するには田口が採用している変動の計算よりもかなり多くの計算工程が必要になります。

 変動で計算すると平方和の計算よりも “あてはまりのよさ” が過小になりますが、ばらつきを評価の対象とする動特性のパラメータ設計では問題にはなりません。

 したがって、田口は計算能率を優先してこの方法を採用したのではないでしょうか。

 本当は、ゼロ点回帰の平方和の計算によるSN比を採用したかったのではなかったのかな?とも考えられます。

コンピュータが一般化した現在では、平方和の計算結果も簡単に求めることができます。また、Excelなどに実装されているグラフウィザードを使えば、回帰式のあてはまりのよさの指標である 寄与率(R2)も自動的に計算できます。

 ここで、R2について考えてみます。 R2は全体の偏差平方和に対するあてはまりのよさの指標である回帰平方和;SRの比になります。つまり、R2SR / STです。

 また、SN比;ηの基本的な思想は、η=【有効成分】/【無効成分】ですから、有効成分を回帰平方和、無効成分を残差平方和とすると、

 η=SR / Seになります。前述のように、STSRSe そして、R2SR / STですから、SR = R2 ST ,および, SeSTSR =(1-R2 ST になります。つまり、

 η=R2 ST /(1-R2 ST R2 /(1-R2  という形の数式で定義できます。

 ここで、一般的にb0y切片)も求める単回帰式を採用するべきか、それとも、田口の考えとおなじようにゼロ点回帰式を採用するべきか、という悩みがうまれます。

 どちらを使うべきか? それは技術者の判断でよいと思います。

Photo_2

 あるシステムの制御因子に 「部品A」と「部品B」を使ったときのシステムの入出力関係のグラフをしめします。

 部品Aのほうがよい、という判断ならばゼロ点回帰式を、部品Bのほうがよいという判断ならば単回帰式を使えばよいのです。