限りなき知の探訪

45年間、『知の探訪』を続けてきた。いま座っている『人類四千年の特等席』からの見晴らしをつづる。

数財探掘:【第29回・最終回】データマイニング・夜話(その11:アウスレーゼのデータマイニング)

2009-07-23 00:09:20 | 日記
トロヤ遺跡発掘者のシュリーマンは情熱的な古代ギリシャ文明心酔者であると同時に語学の天才です。その自叙伝、『古代への情熱』を読むとその外国語の天才ぶりがよく分かります。実に十数カ国語もの言語をマスターしています。それもいづれも2~3ヶ月ほどの短期間にです!その秘訣は、子供が母国語を習得するように、必ずしゃべるということにあります。ロシア語を学ぶときなどは、ロシア語を一言も分からないユダヤ人をお金を払って雇って、目の前に座ってもらい、話しかけるという努力までしています。



私も中学校時代から外国語には興味がありました。中・高校の時は英語が面白かったのですが、大学に入ってからは、ドイツ語やフランス語に興味を持ちました。とりわけドイツ語は本分であるはずの工学部の授業をそっちのけにして没頭していました。特に、三年生の夏休み前に冷やかし半分に出席したドイツ語会話クラスの学生と先生の楽しそうな会話風景から、突然衝動的にどうしてもドイツに行きたいという熱い願望が湧き起こりました。その夏休みには毎日ドイツ語の単語を80個機械的に覚えていくのと共にアメリカ国務省の外交官養成用のカセットテープ『Basic Spoken German』十数巻で徹底的に聞き、そして(一番重要な)『しゃべる』練習をしました。その甲斐あって、1年後にはサンケイスカラシップという留学試験に合格し、ともかくも憧れのドイツへ行けることになったのでした。

シュリーマンの場合もそうですが、私の個人的な経験からしても『能動的な音的要素(つまり、しゃべる)』を軽視している現在の日本の英語教育では英語のできる人間を作れないことは無理も無い事だと感じます。これは、まさにボールを打たなければ野球やテニスは上達しないし、水に入らない畳上の水練では泳ぎがうまくならないのと同じ理屈でしょう。

さて、ドイツではミュンヘンに暮らすようになったのですが、夏が終わると共に、早くも、どんよりとした冬が訪れます。外はマイナスの気温ですが、部屋の中は暖房が効いていて半袖でも十分な暖かさです。当時の私の部屋には二重窓と部屋のカーテンとの隙間にはちょっと凹んだところがありました。そこはまるで、冷蔵庫のように冷たいのです。そこで、学校からの帰り道には大抵ワインを買ってその凹みに置き、暫く経ってから栓を抜くと丁度飲み頃の温度に冷えていました。当時アルコールは余り強くなかったのですが、ちょっと甘めのデザートワインであるドイツ産の『Auslese(アウスレーゼ)』が大変好きになりました。



Auslese(アウスレーゼ)とはドイツ語で『選び出す』(英語で select )という意味です。普通のワインは、ワインを作るときには摘んだ房の質に関係なく全て使って作りますが、アウスレーゼの場合は良い房だけ選んで作ります。これが上等なワインを作るこつなのです。

世の中ではデータマイニングで作ったデータモデルの性能を議論するときには、決まって手法の良し悪しが議論されているように見受けられます。しかし、大規模なビジネスデータを対象にした、データマイニングをいくつも手がけた私の経験からいいますと、一番肝心なのは、対象とするデータ自身のクリーニングです。つまりアウスレーゼのようなデータを使わないかぎり良い結果は得られないと言うことです。

アウスレーゼのデータマイニングの手始めは先ずデータの統計値を取ることです。統計値とは、データ件数、最大値、最小値、平均値、分散、カテゴリー値の場合は頻度分布などです。非常に簡単なことですが、このような初歩的なところを無視してデータマイニングをツール任せにしているのをよく見かけます。次いで、これらのデータの散布図を必ず項目ごとに作ります。項目が少ない場合は何とか作っても項目が多くなるとつい億劫になり、適当にはしょりたくなりますが、そうすると、後で必ずしっぺ返しを食らうことになります。私が手がけていたクレジットカード関係のデータマイニングでは、元の項目やデータ加工後の項目を合わせると200項目以上にもなることはざらでしたが、必ず全項目散布図を描かせていました。(私のグループではこのプロセスは自動化していました。)

世の中の人々のデータマイニングに対する考え方は、ともかくデータマイニングソフトにまかせっきり、という全面依頼的な考えが支配的なように思いますが、私の考えでは、現状のソフトではまだ残念ながら、そこまで頼ることは無理だと思います。それは、現在の翻訳ソフトの性能を見ればわかるように、まだまだ現状のソフトでは感性的なデータハンドリングができないのです。あるいは、別の観点からいいますと、人間とコンピュータ(ソフトウェア)が感じる『距離感・親近度・類似度』が異なるためだともいえます。

これらの散布図や統計値を眺めながら、不要なデータ項目を段階的に削除していきます。いわばデータの剪定ですが、結局ここがアウスレーゼのデータマイニングの一番重要なポイントです。

データマイニングをする、つまり生のデータから、データモデル(予測・判別・分類)を作るというのは、結局は、情報の集約ということになります。ということは、どの項目に情報が集約しているか、どのような観点から見ればその集約度合いが分かるか、ということになります。一例として年齢を考えて見ましょう。年齢は詳しくしらべれば、生年月日が分かれば、生まれてからの日数が計算できるわけですから、一日単位で区分することも理論的には可能な訳です。しかしほとんどの場合、一日単位で区分することは意味が無いどころか、反って情報集約を散漫にしてしまいます。それでは、逆に大まかな分類、例えば、子供、大人、老人の3区分にするというのでは、余りにも集約し過ぎてしまって、政府の統計局以外では大して役にたたないでしょう。

それではどの程度のデータ集約をするのが、ベストなのでしょうか?例えば携帯電話の販売データを分析する場合を考えてみましょう。若年層を対象としている時には、小学生、中学生、高校生、大学生、社会人のグループに分けるのがよさそうだと思えますね。これは、それぞれの行動パターン(携帯を利用する顧客の動態)を予測しようとするのに適切な区分で入力データをくくるということになります。このように、作成するデータモデルに応じて、入力データに適切なデータ加工を施さないといけないということが分かります。

本来的にはこのようなデータ区分はデータマイニングのソフトが自動的に算出してくれることが望ましいのですが、先ほどの自動翻訳の例でも述べましたように、現在のソフトでは、自動的に算出された区分は、経験上ほとんど使い物にならないと考えたほうがよさそうです。この点から、データマイニングを成功させるためには、つまり、精度の高い予測モデルを作成するためには、分析対象とするデータについて実務経験の豊富な人と一緒になってデータ解析、データモデリングをすることが一番の要諦です。

アウスレーゼのデータマイニングにはこの他、データセットの分割、項目を分類するのにAIC理論(赤池情報量理論)を適用すること、複数のモデルの組み合わせ、などさまざまな手段を組み合わせる必要があります。こういった考えの背景にある思想は『ツールに頼らず、手を汚して汗だくになりデータと格闘する』と言う点に尽きます。汗や涙なしでは語学でもデータマイニングでも成就しないのは同様です。

************************************

さて、データマイニングに関する私のエッセー『数財探掘』は今回(第29回)が最終回となります。長らくのご愛読どうもありがとうございました。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする