goo blog サービス終了のお知らせ 

限りなき知の探訪

50年間、『知の探訪』を続けてきた。いま座っている『人類四千年の特等席』からの見晴らしをつづる。

数財探掘:【第2回】データの蜃気楼(その二)

2009-05-31 12:26:07 | 日記
前回では、一足飛びにデータモデリングの結果についての話まで進みましたが、また本線に戻ってデータそのものの話を続けましょう。

データマイニングの結果では、前回の話に出ました多重債務者の発見のように、そのデータから結果が白か黒かを求められる用途が結構あります。これを専門用語では、判別分析といいます。 残念ながら、実際には白か黒か完全に決着をつけることは難しく、大体はそれぞれの判定結果に次のような形容詞がつきます。

『ほぼ間違いなく、かなり、どちらかといえば、。。。』

これらの言葉の意味するところは、100%確信はないものの、そのようなデータパターンを持っていれば、だいたいこのような結果(白、黒、つまり、借金は返済する、多重債務になり自己破産する)になるだろうと言える訳です。これを専門用語では、統計的、あるいは確率論的にそういう結果になる、と言います。

社会データに対する判別分析の場合、基本的に類似のデータを持っている人は類似の行動パターンを起こす確率が高いという『暗黙の』前提に立って議論しています。ここで注意して欲しいのは、この『暗黙の』という修飾語です。なぜ、暗黙なのでしょうか? それは、前回も話しましたように、自然現象では現象の背後に確固とした因果関係がありますので、ある出来事(事象)が起れば、その結果こうなるというのは暗黙ではなく、明示的な関係があります。

しかし、人の行動については、必ずしもその因果関係は決定的ではありません。

例を考えてみましょう。夏の暑い昼食時、かなり夏ばてぎみの会社員A君は、昨晩飲み過ぎて胃の調子がよくなく、おまけに金もないとしましょう。 さて、A君は昼に何を食べると思いますか?

大抵の人は、自分の過去の経験をベースにその状況から、『そば、あるいは、うどん』を食べに行ったであろうと『暗黙の内』に思うわけです。彼も実はそのつもりで会社を出て、通りを歩いていた訳ですが新装開店のウナギ屋ができていて、当日は開店初日ということで半額サービスという立看が出ていたとしましょう。またおいしそうなウナギのにおいと共に、呼び込みの女の子も可愛かったとしたら、ついつい入ってしまったとしたらどうでしょう。統計学上(つまり確率論的には)かなり稀な現象が起ったわけですが、その事象(夏ばてでもウナギを食べた)が起ったのは、A君にとってはそれなりの理由があってのことなのです。

実は社会系データ、人文系データとは、このような定めなき情緒的人間の行動を測定し、判定しようとしているのです。

【データの関係性について】

さて、ここでデータの関連性について考えてみましょう。 ほとんどの場合データの関連性というとすぐ、『それは相関係数の話でしょう』と言う人がいます。しかし、こういったワンパターンの発想しかできない人はデータマイニングをする上では、『縁なき衆生は度し難し』とでも言えましょうか。

よく誤解されているのですが、相関係数というのは、因果関係やデータ相互間の関係を示す指標ではありません。それでは一体何なのか?と疑問に思われるかもしれません。
相関係数というのは、あるデータ値ともう一つ別のデータ値が比例関係にあるかどうか、ということを示す指標なのです。比例関係というのは、別名、『線形的な相関』ともいいます。 この線形という形容詞が実は曲者なのです。線形というのは、直線のようにまっすぐ、という意味です。つまり線形の相関にあるというのは、某布団会社のテレビコマーシャルにあったように、あるデータの値が『二倍』になればそれに対応して、別の値も『二倍』になり、また三倍になればまた三倍になると言うものです。

ここで、現実の世の中のことを考えてみましょう。たとえば砂糖の100グラム入りの袋が100円だったとします。200グラム入りの袋はいくらになるでしょうか?きっちり二倍の200円でしょうか?そうではなく、通常はそれより少し安い価格でしょう。180円ぐらいでしょう。それでは1キログラムだとすればどれ位でしょうか?1000円ではなく、多分800円ぐらいになるでしょうね。 つまりこの二つの値(砂糖の重さと価格)は正比例の関係つまり線形関係にありません。

タクシーにしても、大抵は距離に比例してメーターの料金が上がっていましたが、最近では5000円以上の運賃だと半額にします、といった会社もあるぐらいです。 一方社会系のデータではなく、自然界の現象ではどうでしょうか?

物(例えば車)の速度(スピード)と風から受ける抵抗は、速度の二乗に比例します。 つまり、速度が二倍になれば抵抗は四倍になり、速度が三倍になれば、抵抗は九倍にもなる訳です。また物を放り投げた時にできる線を放物線と言いますが、これも落下距離は時間の二乗に比例します。

結局、自然界も社会的なデータも線形の相関を持っているデータというのは、実際のところあまりないのです。私達は、小学校からデータの散布図をみると、つい定規を当ててみて、直線を引くといったことを無意識のうちに行っているので、つい線形(直線)の関係がどこにでもあるという風に錯覚しているのです。

これは、私達人間は昼間行動しているものですから、つい夜の暗闇が怖いと思ってしまいがちですが、地球上の生物の大半は実は夜行性なのです。ライオンなども大抵は夜の闇夜の中で狩をするのが本来の姿です。ネコ科のライオンは虹彩が我々と異なり、暗闇では極端に大きく開き、ちょうど赤外線カメラの如く暗闇でも物がはっきりと見えるのです。 そうすると、真っ暗闇といっても私達が夕暮れ時に散歩を楽しむ雰囲気で、ライオンはヌーなどの草食動物を狩にでかけるというように思えます。

横道にそれましたが、世の中のデータには線形の相関のものが少ないにも拘わらず、相関係数が線形性をベースに考えているにはどうしてだと思いますか? それは、線形関係以外のデータを処理する数学的方法が今もって見つかっていない(あるいは考えられて)いないからなのです。つまり数学者がギブアップしているからです。

結局、線形の相関以外の相関があるもののデータは相関係数では表現できないのです。 さらに言えば、線形の相関以外の相関があるデータは相関係数で測定すると誤った結論を導くことになりかねません。



<図1:二次曲線の相関係数はゼロ>

この図では、先ほど述べました放物線が描かれています。

つまり、時間と共に斜め上方に投げられた物がどういった軌跡をたどるかということを図示したものです。この図で、相関係数を求めると、なんとゼロになります。その結果から、『横軸(時間)と縦軸(距離)の間に関係は全くない』と即断するのは間違っているのは誰の目にも明らかです。

このようにまず、データ点の集まりを定規で線を引いて当てはまりを見るというのは、極めて当てにならないことがお分かり頂けたでしょうか?

【線形性と非線形性】

ここで、ついでにデータ解析やデータマイニングでよくでてくる線形という概念およびその対立概念である非線形についてお話しましょう。 一口で言いますと、線形というのは直線です。それに対して非線形というのは曲線です。

この観点から、従来の統計解析(ここでは主に重回帰分析を指します)とデータマイニングの差を説明しましょう。重回帰分析のデータモデリングとは、基本的に人間がデータ点を睨んで、ぐっと定規で直線を引くことと変わりありません。それに反して、データマイニング、そのなかでも特にニューラルネットワークを使ったデータモデリングの場合は、データ点をフリーハンドで曲線的になぞっていくことに相当します。

線形のモデリングは、実データに対してどうしてうまくいかないケースが多いのかを、比喩を使って説明しましょう。 皆さんの家から近くの駅に行く事を考えてみて下さい。地図を広げて、家と駅とを直線で結んで下さい。これが線形的解法です。確かに直線で行けると一番早いですが、残念ながら道路はそのようにひかれていないですね。建物や丘、林などに邪魔されて、曲がっていたり、交差していたりします。そうすると、現実的には、そういった曲がった道を行くわけですから、駅に至る方法は何通りもありますね。その幾つかの道筋はあまり時間的にも距離的にも大差がないでしょう。

実際のデータを使ってモデリングしている時は、実はこのような状況なのです。つまり、データ点そのものが、本来的に直線に乗っていないデータを相手にしているので、直線性をベースに考えられた従来の統計解析は実情に合わないのです。

それは、あたかも地図上で家と駅を結んだ直線道路がないのと同様です。つまり現実のデータはそもそも非線形ですから、道路の場合のように最適な答え(最短距離の直線道路)が一つしかないのではなく、良い答え(準最適解)が幾つもあるのが一般的なのです。

本テーマである、『データの蜃気楼』はまだまだこれだけに止まりません。  

続く...

沂風詠録:(第4回目)『健全な懐疑精神』

2009-05-30 10:59:29 | 日記
常識を疑え、とは、世間の常識と言われていることでも、間違いが多いという意味である。

例えば1980年代の日本経済が好調なとき、日本企業が強い原因は『終身雇用、年功序列、企業内組合』など、日本固有の伝統・慣習に根ざした経営をしているお陰だ、という論が世界中を席巻した。

確かに日本企業は当時そのような経営をしていたが、それは、日本固有の伝統ではなく、第二次世界大戦後に始まったことだった(堺屋太一著、『日本を創った12人 (後編)』の松下幸之助の項参照)そして、バブルがはじけると、今度は同じ経営方法が逆に不振の原因と目されるようになった。

これ以外にも、間違った常識がある。儒教的考えと言われる『忠』について考えてみよう。江戸時代、家臣は主家に仕え尽くすことが忠と考えられた。そしてその考えの源はは儒教、孔子に起因するといわれ続けてきた。しかし、孔子の言動はその世間常識とは違う。孔子は50歳を過ぎてから祖国である魯を去って、仕官先を見つける諸国巡遊の旅にでている。その基本ポリシーは春秋左氏伝に載せられている次の言葉に集約される。
『仲尼曰、鳥則択木、木豈能択鳥』(鳥が止まる木をえらぶのであって、木が鳥を選ぶわけではない。)

この内容を敷衍したのが孔子家語(こうしけご)に載せられている。
『君択臣而任之、臣亦択君而事之、有道順命、無道衡命』
趣旨は、主君が臣下を選ぶというより、実は臣下が誰に仕えるかを選ぶ権利がある。主君が正しいことを命じるならそれに従うが、無理や間違ったことをいうなら、敢然とその間違いを指摘するのが、臣下の役目だ、と。

何でもかんでも『ご無理ごもっとも』と盲従するのが臣下としての役目と言いふらした、日本の伝統的な儒教の誤解の罪は大きい。

どの本に書いてあったのか思い出せないが、アヘン戦争を開戦するに当たってイギリス議会で、開戦の是非について激論が戦わされた。結果的に、反対票は賛成票にわずかに及ばなかったものの、反対派の言い分に見るべきものがある。『アヘンなどというものを中国人に売りつけていた非人道的なイギリスこそ反省する必要があり、清に落ち度はない』

こういう意見を公の場で堂々と述べることができるあたりに、私はイギリス人の誇りとする、言論の自由の健全性を感じる。

百論簇出:(第4回目)『南米先住民の高潔な人格』

2009-05-29 07:37:22 | 日記
アメリカ留学中の1983年の年の暮れから1984年正月にかけて南米を旅行した。訪問した国はペルー、ボリビア、アルゼンチン、ブラジル。

窃盗犯が多いのにはうんざりしたが、南米の先住民(いわゆるインディオ)が子供から大人にいたるまでおとなしく従順、融和的であることには正直感心した。これは特に田舎に行くとよく分かった。ペルーのチチカカ湖畔のプノという町からボリビアの首都ラパスには、ローカルバスに乗って行った。それで、私たち以外は全て先住民で占められていた。

私のすぐ前の座席には5歳ぐらいの子供が父親に抱かれていた。日本でも欧米でもこれぐらいの年齢の子供はしょっちゅう辺りかまわず甲高い(かんだかい)声でわめき、かつ駄々をこねるものと相場が決まっている。ところがこの子供はまるでそういった子供じみたところが全くなく、おとなしく窓の外の景色を楽しんでいたりたまには、父親とぼそぼそと話すぐらいであった。その数列まえの座席では、中学生らしき子供とその弟らしき子供とがしきりにふざけていた。私がそこで非常にびっくりすると同時に感嘆したのは、彼らはいずれも声をまったく立てずに、また回りに迷惑をかけることがなかったのであった。(そういえばサル山のサル達も、互いにふざけあうときには声をたてていなかったような。。。)

かつてある本で、北米のインディアンの子供はいくら小さくとも一族が白人に追いかけられて森に逃げ込んだ時、全く泣かないようにしつけられているという話を読んだことがある。これらを実際に目のあたりにして彼らのある面の人間性の高さに感心した。

バスがゆっくりと山岳地帯を通過した時、地元の子供たちが道路わきに立っているのが見えた。バスの乗客の中には用意しておいたパンを嬉々として窓から投げ与えていた人がいた。彼ら自身も貧しいが、それでも更に貧しい者たちへの恵みを考えていたのだ。パンを投げている人は数人ではあったが、バスの乗客全員がそのパンの行方を振り返って、子供たちはうまくとれたであろうか、どんな様子をしているであろうか、など暖かいまなざしで眺めていたのが非常に印象的であった。

かれら南米の先住民たちは環境に従順であるがために、陋巷に住んでいても社会的要求を起こすことはまれである。それゆえ、社会全体の生活水準の向上はあまり期待できない。それに反し、われわれ先進国の住民は分不相応の要求をする代わりに社会の水準向上にも熱心である。私はこの二つの社会を比較してみた場合、後者の社会に住んでいたいとは思うものの、前者の小国寡民の良い面にもあこがれないわけにはいかない。

数財探掘:【第1回】データの蜃気楼(その一)

2009-05-28 00:18:59 | 日記
データマイニングが対象とするのは、数値データが主体です。 数値データといっても、連続値(年令、資本金、営業利益、など)もありますし、カテゴリー値(男女、職種、購入品目分類、など)があります。 現在は、テキストマイニングと称して、自然言語のテキスト文を構文解析などして、重要単語、頻出単語などを摘出して、文章の意味的解析をする手法もさかんに言われています。 とくに、化粧品などの新製品を開発するときにユーザーからの意見をその属性データや購買履歴情報と組み合わせて分析する方法が注目を集めています。

さて、その数値データですが、データが大量になると実体を把握するのに苦労します。 つまり、砂漠で蜃気楼に出会うようにデータにもいろいろと蜃気楼がまとわりついているのです。 まず、私達がデータマイニングの対象にするデータは大抵の場合、社会系データ(金融データ、クレジットヒストリー、など)、人間系データ(政治アンケート、嗜好アンケート、など)がほとんどです。 これと対照なのが物理系・化学系データ(熱伝導、電界と磁場の関係、など)です。

この二つのデータ群の違いは大変大きいものがあります。 喩えてみれば物理系・化学系のデータは無菌室での培養実験に相当し、社会系・人文系のデータは雑菌だらけの戸外での培養実験に相当すると言えるでしょう。私の経験では、後者(社会系・人文系)のデータは、攪乱要因が多く、本来目的とするデータを純粋に取り出すことはほぼ不可能といえます。 つまり、データ自体に再現性はないことは言うまでもなく、なぜそのようなデータが得られたか?本当の要因は何か?と言った本来データ分析で当然追求すべき事柄をつきとめるには、あまりにも入手できるデータが乱雑すぎるのです。先ほどの喩えで言うと、本来培養しようとしていた菌の他に雑菌がうようよ繁殖しているシャーレのようなものです。

この違いを認識せず、社会系データあるいは人文系データをあたかも物理系・化学系データのように論理的に扱おうとするアナリストが世の中には多いですね。また、そういう人に限って自分の使っている手法の優位性を誇示したがるものです。そして、あたかも、こまかく分析すればするほど、深淵な真理に到達するとでもいうような論調で、まくしたてるものです。 こうなると、蜃気楼に惑わされている、と言うよりかなり重症な精神錯乱者とでも言えるかもしれません。

<図1:2つのデータタイプ>

ここで反論が聞こえてきそうですね。 『そうしたらあなたは過去のデータマイニングのプロジェクトでどのような分析をしてきたのか?』と。 私の経験上では、社会系データあるいは人文系データでのデータマイニングの分析結果はあくまでも一過性のものに過ぎない、また、その分析結果を実際に適用してみて初めて分析が正しかったのかどうかが分かる。 しかし、いくらその実際の適用で効果がでたとしても(例:売上増大、レスポンス率の向上、など)それは、因果関係を説明したことにはならない、というものです。 その理由は、社会系データあるいは人文系データでは、物理系・化学系データのように、結果に影響を与えている本当の因子を特定することはほとんど不可能であるからです。 そういった制約が潜在する社会系データでのデータマイニングではとりあえず、ある目的の傾向を示すデータ群を選別する、という観点で私はデータモデリング(予測モデルともいう)をしてきました。

具体的に言いますと、クレジットカード会社では、カード発行の申し込みを処理する業務(入会審査という)があります。現在、カード会社には、借金を多く抱えた人が急場しのぎのために金を借り入れる必要に迫られてカード発行を申し込む人が多くやってきます。 これら、多重債務者、つまり、自己破産予備軍は、カード会社にとっては、迷惑この上ない客なのです。 彼らは、カードをつくるや否や、限度額目一杯に借りまくり、暫くすると自己破産することになります。

しかし、そのような客でも必ずしも全員がすぐに自己破産する訳ではないのです。 そうすると、限度額目一杯に使ってくれる客というのは一転して、優良顧客ということになる訳です。結局審査では、沢山キャッシングしてくれたり、ショッピングに使ってくれて、それでいて倒れそうで倒れない客を入会させることができればそれにこしたことはない訳です。

このようなテーマに対して、私が遂行したデータマイニングプロジェクトというのは、次のようなものでした。申し込み用紙に記入された、本人が申告した属性情報と、外部信用情報から、自己破産しそうな客とそうでない客を判別するものです。分かりやすくいいますと、それらのデータをベースにすると、自己破産する割合が高い人のグループと低い人のグループに判別します。実際には二グループというより、評点をつけるのですが、概念的には十グループ程度に分類するものと考えて下さい。


<図2:自己破産者の判定モデル>

この十グループに分けた時、なぜそういった属性やデータ値をもった人が自己破産しやすいのか?という原因追求は一切行いません。 ここで言えるのは、過去のデータから、そういったデータ値をもった人は『実績ベースで』こうであった、としか言えないのです。こういった時に、もっと突っ込んだ分析をしたら、根本原因がわかるなどとは間違っても思ってはいけません。 そういった過信に陥ると、データの蜃気楼に迷わされる事になりかねません。   続く...

【麻生川語録・3】将棋はとんがり帽子、囲碁は麦わら帽子

2009-05-27 11:00:57 | 日記
将棋と囲碁のプロの世界を見ると、女子プロの棋力がこの二つの世界であまりにも違うことにびっくりする。

将棋界では、女性プロのトップでさえ、男性のレベルより、はるかに下である。たとえ女性のトッププロが男性の世界に入ることが許されたとしても、プロの入り口である四段クラスであり、最高段位の九段には誰一人とうてい到達できないであろう。

一方、囲碁界では、女性プロのトップは全ての棋戦で男性と同じ条件で戦っている。台湾出身の謝依旻(しゃ・いみん)は弱冠20歳でありながら、すでにプロ四段で、最近のNHK囲碁トーナメントでは男性の高段棋士を相手に冴えたうち回しで堪能させてくれた。彼女の碁風を見るに、これからも男性棋士に伍して着実に棋力・段位とも向上していくことは間違いない。

この差は一体どこから来ているのであろうか?世間では、女子将棋には伝統がないが、女子囲碁には長い伝統があるなど、いろいろと解説されているが、私にはどれも本質をついていないと思える。

本質的な差はこの二つのゲームのもつ評価関数が異なっている点にある。

ここでいう評価関数と言うのは、どの手段が一番得かを選択することをいう。将棋の評価関数は非常に険しい。つまり、一番得な手段(ベスト)とニ番目に得な手段(ベター)の差(開き)が非常に大きい。つまり、常に最善手段を探すことを求められている。

一方、囲碁の場合は評価関数が極めてなだらかである。つまり、一番得な手段とニ番目に得な手段の差が少ないことが多い。つまり最善手段が見つけることができなくても、勝負に響くことが少ない場面が数多くある。あるいは、同じレベルで得な手段が将棋の場合に比べてかなり多く存在する。

比喩的に言うと、将棋は常に断崖絶壁の峰を歩いている状態、あるいは凍てつく氷壁を登っていくようなものである。一瞬の気の緩みで、がけから転落してしまう。極めて精巧な歩みが求められる。一方、囲碁は凹凸の激しい砂漠の横断のようだ。前に立ちふさがる砂丘の山を避けて通ることも可能だし、思い切ってその山を登り向こう側にいくという選択も可能だ。

評価関数の異なるこの二つのゲームに対して女性の脳が違った適応性を見せるというのは、胎児の段階にその原因が求められるべきである。母親の胎内では人間は皆、女の形で胚胎している。胎児の性の区別がまさにつこうとしている段階で、男には男性ホルモンのシャワーが大量に降り注ぐ。しかし女にはそのシャワーがない。この男性シャワーのある/なしで性器が男女それぞれに確定して発達するのであるが、同時に脳の内部構造にも影響し、結果的に女性の脳はとんがり帽子の将棋より麦わら帽子の囲碁の方に向いた構造になっていくのだ、と私は考えている。