3月27日にアップした「マハラノビスの距離の平均はなぜ項目数と一致するのか?」の説明をします。 もともと多変量解析の『判別分析』で用いられていた『マハラノビス距離』ですが、項目数;k個からなるサンプルをn個つかって手順どおりの計算をすると、n個のマハラノビス距離の2乗値が求まります。そして、このn個のマハラノビス距離の2乗値の平均を計算するとその値はkとなり、項目数と一致します。 品質工学のMT法では、マハラノビス距離の2乗値を項目数(k)で割るので、その平均は1になります。各サンプルのマハラノビス距離の2乗値をkで割る処理をおこなうことにより、項目数の多少にかかわらず、マハラノビス距離の2乗値は1の近辺が頂点となり、グラフの右すそ方向に扁平な分布となり、解析結果が認知しやすくなります。また、マハラノビス距離の2乗値の平均が1になれば演算が正しく実行されているという確認ができるというメリットがあります。 『判別分析』でのマハラノビス距離の原理的な考え方では、サンプル群のある項目データ群は正規分布にしたがうという考えを各項目について仮定しているようですが、実際、項目データが正規分布していなくても、マハラノビス距離の2乗値の平均は項目数;kに一致します。不思議にみえるこの現象の原因について解説を始めます。 k項目からなるn個のサンプルを収集し、各項目ごとに平均;μと標準偏差;σを求めるところからマハラノビス距離の計算は始まります。このときのσは偏差平方和;Sを(n-1)ではなくnで割って平方根で開いた母標準偏差の推定値です。 つぎに、各サンプルの項目データからその項目の平均;μを引き、標準偏差;σで割り、『基準化』した値を計算します。 たとえばサンプルを行方向、項目を列方向に配列すると、(n行k列)の行列となり、列方向に並ぶ各項目の平均はゼロ、標準偏差は1のデータ群に変換されます。ここで、基準化された値をu として、行番号をⅰ、列番号をjとして添えると、つぎのような配列になります。
つぎにこの基準化されたデータ群で項目データ間の相関係数;rを計算し、その結果をまとめた相関行列;R をつくります。このとき、対象となるデータ群は基準化されているため、いろいろと便利な特徴がつかえますのでそれらを有効に活用していきます。
たとえば、項目1と項目2の相関係数;r12は、つぎの手順で求めます。
まず、項目1と項目2のデータ群の偏差平方和;S1 ,S2を計算します。このとき、もともとの各項目データはその項目の平均と標準偏差で基準化されているため、
S1=S2=n になります。
同様にすべての項目においても偏差平方和;Sj=n になるというのが第1の特徴です。
つづいて、項目1と項目2のデータ間の積和;S12を計算します。このとき、基準化した項目データの平均はゼロですから、S12はui1とui2を掛けあわせたものを総和した値になるというのが第2の特徴です。
なお、基準化したデータでのこれらの特徴の導出については本題とそれるので割愛しますが、拙書 『試して究める!品質工学 MTシステム解析法入門』でこれらの特長を導出していますので興味のある方はそちらを参照願います。
したがって、項目1と2の相関係数;r12は、r12=Σu 1j u 2j / n という簡単な形であらわすことができます。実はこの式は、共分散を計算する式そのものです。
つまり、基準化したデータ群の項目間相関係数は項目間の分散・共分散であり、相関行列;R は分散・共分散行列;V と一致します。
さて、基準化したデータ群の情報である(n行k列)の行列をU とします。そして、その行と列を入れ替えた行列であるU の転置行列をU T (k行n列)とすると
V =(U T U )/n になります。このときV は(k行k列)の正方行列となります。
さらに、その逆行列が計算できる場合、V(k行k列)は正則行列になります。
サンプルごとのマハラノビス距離の2乗値を計算する計算式は、相関行列;R の逆行列であるR-1 に対して、前からサンプルの項目データを基準化したk次の行ベクトル;u 1j
※コメント投稿者のブログIDはブログ作成者のみに通知されます