月27日にアップした「マハラノビスの距離の平均はなぜ項目数と一致するのか?」の説明をします。
もともと多変量解析の『判別分析』で用いられていた『マハラノビス距離』ですが、項目数;k個からなるサンプルをn個つかって手順どおりの計算をすると、n個のマハラノビス距離の2乗値が求まります。そして、このn個のマハラノビス距離の2乗値の平均を計算するとその値はkとなり、項目数と一致します。
品質工学のMT法では、マハラノビス距離の2乗値を項目数(k)で割るので、その平均は1になります。各サンプルのマハラノビス距離の2乗値をkで割る処理をおこなうことにより、項目数の多少にかかわらず、マハラノビス距離の2乗値は1の近辺が頂点となり、グラフの右すそ方向に扁平な分布となり、解析結果が認知しやすくなります。また、マハラノビス距離の2乗値の平均が1になれば演算が正しく実行されているという確認ができるというメリットがあります。
『判別分析』でのマハラノビス距離の原理的な考え方では、サンプル群のある項目データ群は正規分布にしたがうという考えを各項目について仮定しているようですが、実際、項目データが正規分布していなくても、マハラノビス距離の2乗値の平均は項目数;kに一致します。不思議にみえるこの現象の原因について解説を始めます。
k項目からなるn個のサンプルを収集し、各項目ごとに平均;μと標準偏差;σを求めるところからマハラノビス距離の計算は始まります。このときのσは偏差平方和;Sを(n-1)ではなくnで割って平方根で開いた母標準偏差の推定値です。
つぎに、各サンプルの項目データからその項目の平均;μを引き、標準偏差;σで割り、『基準化』した値を計算します。
たとえばサンプルを行方向、項目を列方向に配列すると、(n行k列)の行列となり、列方向に並ぶ各項目の平均はゼロ、標準偏差は1のデータ群に変換されます。ここで、基準化された値をu として、行番号を、列番号をjとして添えると、つぎのような配列になります。

つぎにこの基準化されたデータ群で項目データ間の相関係数;rを計算し、その結果をまとめた相関行列;R をつくります。このとき、対象となるデータ群は基準化されているため、いろいろと便利な特徴がつかえますのでそれらを有効に活用していきます。
たとえば、項目1と項目2の相関係数;r12は、つぎの手順で求めます。
まず、項目1と項目2のデータ群の偏差平方和;S1 ,S2を計算します。このとき、もともとの各項目データはその項目の平均と標準偏差で基準化されているため、
S1=S2=n になります。
同様にすべての項目においても偏差平方和;Sj=n になるというのが第1の特徴です。
つづいて、項目1と項目2のデータ間の積和;S12を計算します。このとき、基準化した項目データの平均はゼロですから、S12はui1とui2を掛けあわせたものを総和した値になるというのが第2の特徴です。
なお、基準化したデータでのこれらの特徴の導出については本題とそれるので割愛しますが、拙書 『試して究める!品質工学 MTシステム解析法入門』でこれらの特長を導出していますので興味のある方はそちらを参照願います。
したがって、項目1と2の相関係数;r12は、r12=Σu 1j u 2j / n という簡単な形であらわすことができます。実はこの式は、共分散を計算する式そのものです。
つまり、基準化したデータ群の項目間相関係数は項目間の分散・共分散であり、相関行列;R は分散・共分散行列;V と一致します。
さて、基準化したデータ群の情報である(n行k列)の行列をU とします。そして、その行と列を入れ替えた行列であるU の転置行列をU T (k行n列)とすると
V =(U T U )/n になります。このときV は(k行k列)の正方行列となります。
さらに、その逆行列が計算できる場合、V(k行k列)は正則行列になります。
サンプルごとのマハラノビス距離の2乗値を計算する計算式は、相関行列;R の逆行列であるR-1 に対して、前からサンプルの項目データを基準化したk次の行ベクトル;u 1j=(u11,u12,・・・u1k)を掛け、
そのあと後ろから行ベクトルの転置行列であるk次の列ベクトル;u 1jT を掛けます。その結果、ひとつのD12 (サンプル1のマハラノビス距離の2乗値)が求まります。ここまでが一般的なマハラノビス距離の2乗値を求める作法になります。
ではここで、n個のサンプル群全体でマハラノビス距離の2乗値を求めるために、
個別サンプルデータを基準化したk 次の行ベクトルをn行配置した(n行k列)の行列;u ij を前から、R -1 に掛けます。つづいてその転置行列;u ijT を後ろから掛けます。
その結果、各サンプルのマハラノビス距離の2乗値を縦に並べた
n 次の列ベクトル;D 2 が得られます。式であらわすと
D 2=u 1j R -1 u 1jT となります。ここで、u 1j=U ,u 1jT =U Tですから
D 2=U R -1 U T です。さらに、R =V でしたから R -1= V -1 になります。
したがって、D 2=U V -1 U T になります。
このときD 2 は(n行1列)、U は(n行k列)、V -1 は(k行k列)、U T は(k行n列)の行列になっています。
ここで、「対角成分の和」、「固有和」、「跡」などと呼ばれるTraceという考えを使います。
Traceとは、正方行列の行と列の番号が一致する、つまり、最上段最左端から最下段最右端に配列された対角にならぶ成分を足しあわせた値です。このTraceの性質としてつぎの関係がなりたちます。
(1) Trace(cA )=cTrace A
(2) Trace( A+B )=Trace A+Trace B
(3) Trace( A B )=Trace( B A )
U V -1 U T の関係についてTraceを計算するとき
Trace( U V -1 U T )と記述されます。
ここで上記(3)の性質を使います。A = U V -1 B =U T とすると
Trace( U V -1 U T )=Trace( U T U V -1 )になります。
ここで前述の V =(U T U )/n を思い出してください。右辺のTrace( )内に
U T U があり、これはU T U =nV になります。したがって、
Trace( U T U V -1 )=Trace(nV V -1)となり、上記(1)の性質を使って
Trace(nV V -1)=nTrace(V V -1)になります。
そして、V V -1=E (k次元の単位行列)になりますから
Trace( U T U V -1 )=nTrace E となります。このとき、k次元の単位行列の対角成分の和はkになりますからTrace( U T U V -1 )=n k となります。つまり、
Trace( U V -1 U T )=n k です。
この結果よりサンプル群に含まれる個々のマハラノビス距離の2乗値を総和すると
n k になりましたから、n個のマハラノビス距離の2乗値の平均;D 2(mean)は総和をnで割って
D 2(mean)=n k/n=k となり、項目数と一致することが確認できました。
私の記述が不十分なところもあると思われますので、十分なご理解を得られなかったら申し訳ございません。不足部分は後日追記していきます。