ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

1時間後の競馬の予測をするために、データクレンジングを2時間しても、意味は無い。

2013-06-04 11:53:30 | AI・BigData
データクレンジングはたしかに大事。
でも、銀行の名寄せとは違い、
データ解析の場合、
「手持ちのデータをすべてクレンジングしないと処理できない」
というわけではない。

そもそも、
1時間後の競馬の予測をするために、データクレンジングを2時間しても、意味は無い。
クレンジング後に予測をして、レースが終わった後に当てても、何の意味も無い。

この場合、データクレンジングよりも、予測時間のほうが重要になる。




では、どうするのか?

この場合は、乱数を振る。

すべてのデータをクレンジングし、処理する時間がないのであれば、
限られたデータをクレンジングし、処理するしかない。

データを(無作為に)限定し、絞り込むために、乱数をつかって、
無作為抽出する。

そして、抽出されたデータの散布図、クロス集計、ヒストグラム、箱ひげ図などを
みながら、おかしなデータをチェックし、クレンジングする。

このとき、さらに詳細な、決定木とかを分析する時間がないのであれば、
データだけをみて判断するとかも、ありなのではないか?




利益に見合わない解析(費用のほうが、利益より多額になる解析)や、
結果を知っても意味ない解析(予測しようとする時点よりも後に予測結果がわかる解析)は、
解析する意味が無い。

あくまでも、時間と費用に見合った解析をするべきで、
それを前提として、精度を追い求めることになる。
この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« 「合格体験記」はSNS時代には... | トップ | 「クラウドで失敗するための1... »
最新の画像もっと見る

AI・BigData」カテゴリの最新記事