昨年 『調和平均のはなし』 で、調和平均は平均の特性だけでなく、
ばらつきの指標にもなることを紹介しました。
現在、業務である特性をもつ集団の判別のためにMT法を使う方法を
開発しています。
集団の ”平均” と ”標準偏差” を2項目として単位空間を設計し、
判別を行う仕組みです。この2項目でも十分に有用な判別システムが
構築できています ・・・ が!
夏休みに ”標準偏差” のかわりにばらつきの指標として ”調和平均” を
使うとどうなるのだろうか?と思い、今週はじめから検討と確認を
しています。
その結果、”標準偏差” を使った場合よりも格段に判別能力が向上
しました。
なぜ?と考えていたのですが、今日、その理由についてひとつの仮説が
浮かびました。
異なる特性の独立した複数の集団からサンプルを取りだし、その平均と
標準偏差を計算した場合、平均が大きい集団ほど、その標準偏差も
大きくなる、ということはありません。
集団間で平均と標準偏差はそれぞれ独立しているからです。
平均と標準偏差が独立している場合、複数の集団の平均と標準偏差は
無相関になります。つまり、相関係数は0にごく近い値になります。
MT法では、マハラノビス距離を計算するとき、項目間の相関係数を
使います。そして、相関係数が大きいほど、排他性の高い、つまり、
検出能力が高い単位空間が構築できます。
したがって、平均と標準偏差を使った場合、相関係数が小さいので
検出力が低くなります。
では、”調和平均” はどうでしょうか? 当然、算術平均が大きくなる
場合、調和平均も大きくなります。 つまり、相関係数が1に近い値を
とります。
その結果、標準偏差を使うよりも、調和平均を使ったほうが、検出力が
向上するのではないか、というのが本日思いついた仮説です。
この考えについてご意見などをいただけましたら助かります。
よろしくお願いいたします。