てくてくダイアリー

GISとか使ってました

データのエラー

2013-08-14 | いんど

インドでは末尾に1がつく年、10年おきにセンサスが実施されている。2011年が直近のセンサスである。

このセンサスのデータは、1991年頃のものからデジタルで販売されている。いくつかのデータが手元にあるので、それでいろいろ分析をしようとするのだが、日本のデータと同じように考えていると痛い目に遭う。

何が怖いって、考えてもみなかったエラーがわんさかとあるのだ。なんかおかしいと思って、他の年次のデータも引っ張り出してデータを丹念に見ていくと、小数点を打つべきところにゼロが入っていたりする。テンキーを見るとわかるのだが、小数点の横にゼロが配置されているので、おそらく入力時に小数点をおそうとしてゼロを押してしまったというミスがそのまま残って、製品になっているのだろうと想像する。

これとは別の州のデータで村ごとの土地利用の面積の最大値とか最小値とかを確認していると、なぜか最小値にマイナスの数値が入っている。どういうことだ。面積がマイナスって。土地利用のデータはエラーが結構多くて、土地利用の合計面積と村の面積が著しく違う村を探し出して対象外にしたのに、なぜにこんなエラーが残ってしまったのだろう。

よくよく見てみると、土地利用の合計面積はちゃんと村の総面積と等しくなっていた。つまり、あたかも、面積の帳尻が合うようにある土地利用をマイナスにしている(ように見える)のだ。脱力。

このエラーを発見した州のデータは全体的にエラーが少なくて、ちょっとチェックすればわかるようなエラー、例えばさっきあげたような小数点とゼロを取り間違えるようなエラーは皆無である。しかし、チェックしたからこそ出てきたようなエラーというか、なんというかがあるのはちと悲しい。

まぁそれでも州全体で数万ある村の中の1村だけなんだけどさ。

数十とか数百ぐらいまでなら目視でデータのエラーを確認できなくもないけど、これを超えるとちょっと無理なんだよなぁ。思ってもいないところにエラーがあるので、機械的にであっても何をチェックすべきかわからないことが多いし。

そういえば、(日本の)国土数値情報の地価のデータは、その品質情報によると全数検査をした上でのエラー率0%である。すばらしい。そして、うらやましい。データのチェックした人大変だっただろうなぁ。ありがたいことだよなぁ。しかし、この品質が世界のデータの当たり前ではない。

私の個人の感覚では、大体10%ぐらいはエラーがあっても普通である。発見すると脱力するエラーが多いのだが、そんなぐらいでめげているようでは高品質になれきったひ弱な日本人なのかもしれない。

変な値が出るとまず自分の操作を疑ってしまうのだが、そして実際に結構自分が間違っていたりもするのだが、そうであってもやっぱりデータを疑うことは大切である。ほんとーーーにそう実感する、今日この頃なのである。

そう、そして、負け惜しみじゃないけれど、エラーの向こうにどんな操作をしているのかが透けて見えるような、そんなデータも人間味があって悪くはない…。

(やっぱり負け惜しみかも。)


最新の画像もっと見る

post a comment

ブログ作成者から承認されるまでコメントは反映されません。