データクレンジングはたしかに大事。
でも、銀行の名寄せとは違い、
データ解析の場合、
「手持ちのデータをすべてクレンジングしないと処理できない」
というわけではない。
そもそも、
1時間後の競馬の予測をするために、データクレンジングを2時間しても、意味は無い。
クレンジング後に予測をして、レースが終わった後に当てても、何の意味も無い。
この場合、データクレンジングよりも、予測時間のほうが重要になる。
では、どうするのか?
この場合は、乱数を振る。
すべてのデータをクレンジングし、処理する時間がないのであれば、
限られたデータをクレンジングし、処理するしかない。
データを(無作為に)限定し、絞り込むために、乱数をつかって、
無作為抽出する。
そして、抽出されたデータの散布図、クロス集計、ヒストグラム、箱ひげ図などを
みながら、おかしなデータをチェックし、クレンジングする。
このとき、さらに詳細な、決定木とかを分析する時間がないのであれば、
データだけをみて判断するとかも、ありなのではないか?
利益に見合わない解析(費用のほうが、利益より多額になる解析)や、
結果を知っても意味ない解析(予測しようとする時点よりも後に予測結果がわかる解析)は、
解析する意味が無い。
あくまでも、時間と費用に見合った解析をするべきで、
それを前提として、精度を追い求めることになる。
でも、銀行の名寄せとは違い、
データ解析の場合、
「手持ちのデータをすべてクレンジングしないと処理できない」
というわけではない。
そもそも、
1時間後の競馬の予測をするために、データクレンジングを2時間しても、意味は無い。
クレンジング後に予測をして、レースが終わった後に当てても、何の意味も無い。
この場合、データクレンジングよりも、予測時間のほうが重要になる。
では、どうするのか?
この場合は、乱数を振る。
すべてのデータをクレンジングし、処理する時間がないのであれば、
限られたデータをクレンジングし、処理するしかない。
データを(無作為に)限定し、絞り込むために、乱数をつかって、
無作為抽出する。
そして、抽出されたデータの散布図、クロス集計、ヒストグラム、箱ひげ図などを
みながら、おかしなデータをチェックし、クレンジングする。
このとき、さらに詳細な、決定木とかを分析する時間がないのであれば、
データだけをみて判断するとかも、ありなのではないか?
利益に見合わない解析(費用のほうが、利益より多額になる解析)や、
結果を知っても意味ない解析(予測しようとする時点よりも後に予測結果がわかる解析)は、
解析する意味が無い。
あくまでも、時間と費用に見合った解析をするべきで、
それを前提として、精度を追い求めることになる。