障害の原因となる銀の弾丸はないってこと？

2011-11-14 14:40:08 | そのほか

　ソフトウエア・メトリクスの分野（特にエンピリカル・ソフトウエア工学）の分野では、
障害の原因となる要因を、過去のプロジェクトから探し出し、それを元に、新規プロジェクト
に適用して、障害予測や各種見積もり予測に役立てようとしている。

　そのために、

PROMISE Software Engineering Repository
http://promise.site.uottawa.ca/SERepository/datasets-page.html

なんかで、プロジェクトデータが公開されているということは、前に書いた。

今日は、そこで興味深いことを見つけたので、書いてみる。

そこにある２つの（はじめにある、ＮＡＳＡのプロジェクト）ＣＭ１とＪＭ１について

普通だと、障害原因を探るのに、ステップワイズ法（変数増減法）を使うと思うけど、
ここでは、決定木を使って、確かめられないか、考えてみよう。

ＣＭ１をＷｅｋａの決定木Ｊ４８（Ｃ４．５と同じようなもの）で分析すると

となる。つまり、障害は、lOComment（Halstead's count of lines of comments）と
ev(g)（McCabe "essential complexity"）で説明付いてしまう。

　ほ～、正答率８８％だそうな。。。

とおもって、じゃあ、ＪＭ１でやると・・・

なんじゃこりゃ（－＿－；）ちなみに正答率７９．５％
なので、主要３要因、Loc、IOBlank、Total_Opでやると、こうなる

loc（McCabe's line count of code）、total_Op（total operators）
で説明付くらしい・・・
正答率８１．１％なので、ぐちゃぐちゃなのより、よくなった。

あれ・・・指標、変わってない？

じゃあ、ＣＭ１のデータを、ＪＭ１の指標Loc,IOBlank,Total_Opとdefeateの値
だけを残して、決定木で分析したら？

なにもでてこないし、
逆にＪＭ１のデータを、ＣＭ１の指標IOComment,ev(g)とdefeateだけを使って
決定木を分析すると、

出てくるけど、正答率は下がる。

つまり、決定木を使うと、

ＣＭ１の指標は、lOComment、ev(g)
ＪＭ１の指標は、Loc,Total_Op

が向いていて、他の変数ではあまりせつめいできなさそう。

・・・ということは、プロジェクトによって、障害が起こる要因はちがうってこと・・

障害の原因となる銀の弾丸はないってこと？

だとしたら、ステップワイズ法で変数を決定し、それを「ほかの」プロジェクトに適用することは無理ということになり、もしそのようなことがやりたいのなら、

（１）先に、いろいろなプロジェクトにおいて、
　　何が障害を予見する要因かを探し出し、
　　→Ｊ４８でもいいけど、他にもっと適切な方法があると思う

（２）適用しようとするプロジェクトが（１）のどのプロジェクトと
　　類似しているかを、Ｋ－ＮＮ法などで確認し、

（３）その似ているプロジェクトの障害説明要因を使って、
　　適用したいプロジェクトの予測を行う

っていうように、やり方をがらりと変えないといけなくなると思うんですけど・・・

・・・データマイニングとか、この分野は専門外だから、よくわかんないんですけど、
どう思います？

Ｐ．Ｓ　実はこれ、大学院のレポート＆発表で出したもの。

　そのときのコメントが、「でも、この要因でも、説明しているとはいえないよね。当てはまりはよくない。意外と、プログラマの技術力とかが測れたとして、その指標を入れたら、ガラリと変わるといったようなこともありえるかもね？」という意見がありました。

ランキングに参加中。クリックして応援お願いします！

日	月	火	水	木	金	土
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

アクセス
閲覧	1,389	PV
訪問者	696	IP
トータル
閲覧	34,921,291	PV
訪問者	8,727,894	IP
ランキング
日別	620	位
週別	518	位

	【11/18】goo blogサービス終了のお知らせ
	【PR】プロ直伝・dポイントをザクザクためる術
	【PR】安い＆大量の「訳あり商品」がヤバい!
	【コメント募集中】「温泉」の入浴前に体＆髪を洗う？

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです（たま～にコンピューター関係も）