現在、趣味としてMT法における損失関数の研究をしています。
MT法では ”マハラノビス距離” が判別のための評価指標として使われます。
同属とみなせる集団で、その集団を表現するであろういろいろな項目についてデータを
収集して、それを数学的に処理してマハラノビス距離を求めるための情報(相関行列の
逆行列)を作ります。
同属とみなせる集団を単位空間と呼び、単位空間を表現する複数の項目間の関係を
相関行列の逆行列で定義するわけです。
新しく採集したサンプルが単位空間と同属か否か、をこの逆行列を使って
マハラノビス距離を計算して、あるしきい値を超えた場合、異質と判定します。
さて、このしきい値ですが、単純に ”4” と指導する先生もいますが、私は、項目の数を
自由度とするカイ2乗の有意水準5%、または、1%となる値を使うことを薦めています。
この理由は、マハラノビス距離は項目数を自由度とするカイ2乗分布にしたがうからです。
ある特性について多数のサンプルを集めて統計処理をすると、多くの場合、正規分布に
したがいます。これは、偶然誤差が正規分布にしたがうことに由来しています。
誤差を2乗した情報が ”分散” ですから、正規分布を2乗すれば ”分散” の分布が
わかるんじゃないか?と考えたのだと思いますが、標準正規分布を2乗したものが
自由度1のカイ2乗分布になります。2乗しているので、当然正(プラス)の領域のみの
存在となります。
さらに、ある特性を構成する複数の項目がそれぞれ正規分布にしたがう場合、
その特性の誤差は複数の正規分布から取りだした値の足し算になります。
分散は複数の正規分布から取りだした値を2乗して足した値になるはずです。
この作業を多数回くりかえし、多数の分散を求めます。
そして、その出現度の分布を調べたものが項目数を自由度としたカイ2乗分布の
正体です。
自由度;kのカイ2乗分布には、おもしろい特性があります。分布の平均はkになり
分散は2k になるというものです。
マハラノビス距離は逆行列で処理した直後は2乗情報ですから、その項目数を自由度と
するカイ2乗分布にしたがうわけです。
品質工学では、マハラノビス距離の平均が項目数;kになるので、最後に距離をkで
割って平均を1になるようにします。これにより、項目数に関係なく、単位空間の
マハラノビス距離の平均を求めて検算したり、項目が異なる単位空間同志の比較が
できるようになるのです。
マハラノビス距離やMT法については、拙書
『試して究める品質工学 MTシステム解析法入門』 で解説していますので、勉強したい
方は、ぜひ、買ってください! MT法によるマハラノビス距離を計算するExcel VBAも
無料でダウンロードできますよ。