goo blog サービス終了のお知らせ 

読書の記録 (はてなブログのほうで更新中)

新しいURLはこちらです。
https://soshidodomireshi.hatenablog.com/

セガ式 基礎線形代数講座

2025年03月19日 | 数学・統計学
セガ式 基礎線形代数講座

山中勇毅
日本評論社


 もう1冊数学。こちらはもう完全にネタであって、もちろん完読なんぞしていない。タイトルに釣られて買ってしまったのである(爆)。

 僕は文系なので、高校卒業以来はろくに数学も数式も縁がなかったのだが、大学生の講義カリキュラムでコンピュータグラフィックの原理みたいなものをC言語を使って書く機会があった。もちろんマニュアルもアンチョコも用意されていて、それと首っ引きで数式や数字を打ち込むだけなのだが、ポチポチと書いていったC言語のプログラムをいざ実行させると、ディスプレイ上に黒いウィンドウが開いてそこにドット絵が描画されるのが面白かった。
 そのときにプログラムに打ち込んでいたのが、実は行列や三角関数なのだった。
 まずは、モノリスみたいな物体をディスプレイ上に描く。これはモノリスを二次元ディスプレーで描くのにドットに色をつけて座標軸上に配置する、ということを意味する。それから光源の位置を決める。光源に向いている側は明るくなるし、光源から回り込む面は色が暗くなる。その色合いのグラデーションを計算するにはドットの位置と光源の位置の座標を使う。そして今度はそのモノリスを45度回転するとか、光源とモノリスの間にもう一つ球体を描くとか、球体にモノリスの影を投射するとか、オプションをひとつずつ増やすたびに、実は行列と三角関数でドットの位置と色を再計算していくのである。
 計算そのものはコンピュータがやってくれるのだが、自分が書いたプログラムのロジックが正しいかどうかは描画されるまでわからない。何かが間違っていると、その部分だけ色が出ずに真っ黒になったり、色はついてもグラデーションにならずにのっぺりになったりした。
 なるほどCGというのはこういう原理なのだなということを学んだ貴重な体験であった。1990年代の話である。

 現在、当たり前に目にするCGは、アニメでもゲームでも映画でももはやお馴染みすぎて、後ろで動いているはずの驚異的な計算のことは忘れがちだ。昔のアニメは、背景が固定されていて人物だけがセル画の上に手書きされ、それがパラパラ漫画の要領で動いていた(いわゆるセルアニメ)。しかし背景をCGで描けるようになると、これまでは禁じ手だった「背景を動かす」ことができるようになった。聞くところによると、1991年のディズニーアニメ映画「美女と野獣」の舞踏会のシーン、メジャーな商業映画ではあれが本格的にCGで背景が動いた最初の例だそうである。「美女と野獣」もそのシーンまでは通常のアニメと同様に、背景は固定されていて人物だけが動くセルアニメーションだったが、この舞踏会の場面になると、ベルと野獣が手を取り合って画面の中央に位置し、舞踏会会場となる大広間の背景が回転する。屈指の名シーンだ。
 先ごろ地上波で再放送されたのを観ていた。

 幾何面の座標や行列の回転や三角関数がわんさかでてくる本書を眺めながらひたすら思い出したのはアニメ版「美女と野獣」の舞踏会のシーンだった。アラン・メンケンの名曲に乗せてダイナミックに回転する黄金のアーチやカーテンには、ひとつひとつのドットに対して行列と三角関数の猛烈な計算が行われていたんだよなーと変なところに感慨した。


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

数学思考のエッセンス 実装するための12講

2025年03月17日 | 数学・統計学
数学思考のエッセンス 実装するための12講

オリヴァー・ジョンソン 訳:水谷淳
みすず書房

 たまに数学や統計学の本を読む。もちろん入門編くらいのものばかりだ。専門知を学ぶというよりは世の中のとらえ方の一流儀をいちおう知っておくというくらいのつもりなのだが、それでも難解であることが多い。
 難解に思うのは、長ったらしい数式が出るとか馴染みのないギリシャ文字がいっぱい並ぶということではなく(いや、それももちろん難解さの一因なのだが)、その数学なり統計学が表さんとしている内容が、直観に反していたり人間の認知能力を超えるようなこととしてちょいちょい出てくるからだ。「偽陽性の罠」とか「1001日目の七面鳥」とか「蓮の花の増え方」とか、直観を超える数学的思考はたくさんある。

 しかし、この人間の直観や認知能力を超えることこそがまさに重要かつ教訓なのであって、人間の認知能力というのはしばしば正確性に乏しかったりバイアスで歪んでいたりするのである。したがって、世の中の現象や状況をちゃんと把握しようとする場合は、数学や統計学のセンスで物事を見る必要がある。これを怠るばっかりに、リスクしかないギャンブルに手を出したり、検討に値しない脅威に慄いたり、強引な結論誘導のための折れ線グラフに言いくるめられたりする。

 「環世界」という言葉がある。我々はしょせん自分が認知認識している世界の中で完結して生きているという世界観の仮説だ。井戸の中の蛙は言うに及ばず、水の中で一生を過ごす魚が水面より上の世界を認識しないのと同様に、人は認知している世界の中で生きていて、それがその人間にとって「この世の中だ」と思う。そのように脳みそは作動する。フィルターバブルやチェンバーエコーの中にいるのに世論の大筋はこうなんだろうと決めつけてしまうのも同様である。環世界では情勢を見極めるのも次の一手を決める判断材料もすべて自分の認知・認識している世界の情報で行う。

 しかし、自然現象や社会現象の中には、どういうわけか人間の直観や認識をあざ笑うようなものがある。

 リーマンショックのときは、100年に1回起こるか起こらないかの滅多に無いはずのことが起こったとされたが、冷静に統計を計算すると30年に1度くらいは起こっても不思議ではないことが判明した。東日本大震災の福島原発事故は1000年に一度の想定外と言われていたが、「1000年に1度」は、残りの999年は必ず来ないことを意味しないにも関わらず、その安全対策は反故にされた。
 本書はコロナのパンデミックが世界中で吹き荒れたときに執筆されており、この時期はウィルスの感染拡大予測、PCR検査の精度や陽性者の出現率、死亡者の推移の分析、はては行政施策と流行の相関(女性が首相のところは感染が抑えられている、なんてのも)みたいなことまでいろいろ狂騒的に言われていた。多くの予測や見立ては現実を前に翻弄されたわけだが、あれから数年たって今となっては、あの狂騒の心理状態はやむなきものだという気もする。

 つまり、人間の肌感的な認知能力はあてにならないのだが、そこを、直観とは反するんだけどでも計算の上ではやっぱりこうなんだよなあというものを教えてくれるのが数学や統計学だ。
 つまり、数学とか統計学のセンスは、専門的にそれを駆使する能力は無くてもかまわないが、自分がそれに騙されたり流されたりしないようにするくらいの防御力のためにも持っていたほうがよい。

 本書を読むと、とくに人間の感知が苦手なものは、
 ・ランダム
 ・指数増減(対数増減)
 ・ベイズの定理
 のようである。ランダムな現象に対して、人はついついストーリーや説明をあてはめようとしする。1,2,4,8,16と指数的に増加するものを、1,2,3,4と等差で単調に増加するものののようにイメージする。一部の条件を満たしている者のみで現れている現象を全人類のものだと思ったりする。

 反対に言えば、
 ・これはただのランダムなのではないか?
 ・これはこのあと指数的に増加、あるいは指数的に減少するものなのではないか?
 ・これはある条件の中だけで適用する状態なのではないか?
 という疑いの目線を常に持っておくだけで、自分が持っている環世界はずいぶんに広がるということである。これらは経験と直観に逆らうので脳みその汗をかくこと必至だが、経験則に溺れすぎないことは大事なことだ。
 「愚者は経験に学び、賢者は歴史に学ぶ」という格言があるが、ここで言う歴史とは法則性であり因果律であるとすれば、歴史とはまさに数学なのであり、愚者は経験に学び、賢者は数学に学ぶ、ということも言えそうだ。


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

大学4年間の統計学が10時間でざっと学べる

2024年01月03日 | 数学・統計学

大学4年間の統計学が10時間でざっと学べる

倉田博史
KADOKAWA


 昨今は統計学がトレンドである。AIやビッグデータの隆盛がその背景にあるのは間違いない。企業の採用でもその手の人材を募集していたり、大学がその名を冠した新学部を創設したり、学生全員を必修科目にするなどしてアピールに余念がない。

 本来的に統計とは試薬の開発や気象分析などサイエンスの分野を支える手法だが、いっぽうで人々を説得するロジックとしてしばしば引き合いに出された。戦場の天使ことナイチンゲールは統計の論法を用いて国を説得し、大規模な医療改革を引き出した。かつて多変量解析は心理学の研究で用いられることが多く、日本の大学では文学部心理学科に統計学の講義があったりした。20世紀も終わりごろになって企業が製造過程において生産効率性をはかるスローガンとして統計誤差に注目するようなことがあった。

 僕は大学を卒業して数年ほどデータ統計をなりわいにしていた小さな会社に在職していたことがあった。大手企業のマーケティング部署が出してくるデータのアウトソーシング先みたいなところだった。僕自身は大学時代にいっさい統計学の授業をとったことがなく、統計については全く無知であった。それなのになんでこんな会社のこんな仕事にまわされたのかというと単にExcelが使えたからである。そんな時代であった。僕の仕事が、当時の日本のGDP向上にどのくらい貢献したのかはさっぱりわからないが、僕自身がここで統計というものを知ったのは役得ではあったと言えよう。

 ただ、そういう在野で身につけた知識の故、その中身はたいへんムラがあるものだった。なにしろ計算そのものはExcelのソフトウェアがしてくれるので我々は出てくるスコア表を見ればよい。出てくるスコアが信頼に足るものかどうかはP値なるものをみて0.05を下回っていればよいとか、そういうのは覚えたが、ではP値というのはいったい何者で、なぜ0.05を下回ればいいのかなんてことは二の次であった。そのくせクラスター分析とかコンジョイント分析とか手数だけはいろいろやってみて重宝されたが、これらの分析の計算過程はブラックボックスで、ただ出力されたスコアが信頼できるかどうかをマニュアルにしたがってチェックするだけだった。

 現場でいいかげんに身に着けたそのような統計学にプライドとコンプレックスがあったまま幾星霜、ここにきて統計ブームである。勤め先も立場も変わり、いまの自分の職務は必ずしも統計知識とは関係ないのだがなにしろ世間が追い風なので何かと会社はデータデータ言ってくる。実際に、膨大なビッグデータをぐるぐるまわして脚光を浴びる若手社員なんてのも出てくる。

 そうなってくると「俺だって若いころは統計やってたんだぜ」と言いたくなる欲求がムズムズわくが、これは老害以外のなにものでもない。ただ、ロートルのレッテルを貼られたままなのも癪である。

 ということで、統計検定を受検してみることにした。統計検定は1級・準1級・2級・3級・4級とある。統計の知識を問う資格については他にも姉妹的な検定がいくつかあるが、もっともスタンダードなのはこの統計検定だ。英検みたいなものである。
 その統計検定の中でも特に2級が目安とされていて、これをとっておくといちおう「この人は統計ができる」と市場価値として認められるとされる。

 というわけで統計検定2級にチャレンジしたのである。「昔やってたんだぜ」はウザいだけだが、「2級持ってるよ」ならば、もう少し人としてなめられなくて済むかもしれんなんて思ったのである。去年の夏頃の話だ。

 そしたら、ものの見事に玉砕した。もちろんぶっつけではなくて過去問なんかもぱらぱらみたのだが、合格点ラインが60点というのでまあなんとかなるだろうと油断したら、もう全然届いていないのである。

 というより、改めて考えると、齢50にもなってこの手のテストは本当に久しぶりなのである。これまでもいくつか資格試験や検定みたいなのものを受けたことはあったが、それらは基本的には「暗記」であった。まれに計算問題を課すものもあったがそれとて全出題のごく一部であって、なんならその問題は捨ててしまっても他で点がとれれば合格に影響しないものであった。

 しかし、統計なのだから当たり前なのだが、出題の大半が計算問題なのである。そんなテストを1時間半にわたって受ける。いまから30年以上前、大学受験以来なのではないか。その30年の間に、当方の脳みそは劣化し、集中力は続かず、出題文を読む目(試験会場ではパソコン画面で行う)は老眼でおぼつかず・・・

 

 「不合格」の画面がパソコン上にパンと出たときは絶望的な気分になったものの、それから心を入れ替えて本気で3か月ほど勉強してみた。過去問集や何冊かの参考書を相手にウンウンとやって年末に再受験したら、今度はギリギリの点数で合格した。これだけ真面目に一生懸命やったのだからもう少し点数はいくかと思ったのだが、本当にギリギリで、あと1問か2問ほど間違っていたら不合格というレベルだった。

 勉強の最後のほうは、統計知識を得るというよりは単に試験対策みたいになってしまい、このパターンの問題が出たらこのパターンの解答みたいな強引なスタイルになってしまっていた。そこで合格後に改めて手にしたのが本書なのである。

 

 

 ともあれ統計検定2級は合格したし、改めてこれを読めばもう一度情報も整理できて人前で「自分は統計ができる」と言ってしまって、なにか返り討ち的な質問をされてもまあ大丈夫かなと思ったのだが、意外にも本書を読み解くことは苦難だった。さんざん検定対策をして、そのうえで本書を読んだ上の感想だが、「10時間でざっとわかる」のは無理なんじゃないのだろうか。もちろん各章題である「分散」「t検定」「独立性の検定」「標準化」などがなんであるかはわかる。というか、それは本書を読む前から勉強していたのだから知っている。しかし、そこに書かれている解説がけっこう晦渋なのだ。自分が勉強したものはこれだったっけ、みたいな戸惑いを感じる。これ、統計学初見の人がよんでわかるのかなあ、などと思ってしまうのである。

 はやりの学問だけあって、書店にいくと「文系でもわかる統計」「中学生の知識でわかる統計」など、お手軽にマスターできそうな統計本が揃っている。暗記物がメインの資格検定はそういうショートカットもありそうだけど、本来が数式と厳密なロジックで成立している統計学はあまり近道がないのではないかと思う。
 と書くと、なんだか教訓と自慢みたいな繰り言で終始してしまうので、なんでそうなってしまうのかというのをさらに考えてみたい。今回のブログ、かなり長文になってしまった。

 

 統計学について学ぶのに一番いいのは、教師役の人と問答しながら双方向で確認しながら進めていくことではないかと、これは独学で参考書を読んだり問題集と解きながらずっと思っていたことではあった。扱うデータもビジネス現場などで扱っている実際のものであればなおよい。というのは結局のところ、統計学の学びの対象は、実際のデータと、どのような論理で成り立っているかという話と、そしてそれをもとにした数式がすべてだからである。

 だけれど、これを一方通行の文章だけで表現して読み手に伝える、というのは参考書の書き手にとってはかなり厄介な仕事なのではないかと思う。統計学の先生なんてのは、想像するに文系的な言語ボキャブラリーが豊富とも思えないし、数字と数式で成立する世界の解説をいちいち日本語の文章で説明するのは外国語の翻訳と同じで隔靴掻痒であろう。厳密に定義しなければならないものほどコトバがもつ冗長性が障害になる。統計学には「棄却する」とか「独立の元では」とか「信頼空間が」とか「自由度」とか変なコトバがいっぱい出てくるが、これも数学の世界によくある定義の厳密性を追求しようとしてこんなへんな日本語になる。業界内では通用しても部外者にはその意味するところはなかなかピンとこない。本書は「10時間でざっとわかる」シリーズの一環で、経済学とか社会学とかいろいろ出ている中の1冊だが、統計学でこの制約を要求された著者も気の毒ではある。

 つまり、統計学(おそらく数学全般に言える話だろうが)を解説書形式で説明するのは、書き手としても高度な技術を要するし、読み手がそれに対してこの文章はどういう意味か、このコトバは何かの質問も確認もできないという一方的読書体制で学ぶのはなかなか効率が悪いのだ。変に四角張った意味がはかりにくい文章と、わかりやすいけど書き手によってその説明の仕方がぜんぜん違ってしまう解説が混在するのが統計学の参考書なのである。要するに参考書だけの独学勉強方法はムリゲーと言ってもよい。

 というわけで、僕がやった勉強スタイルでは、年齢のことは棚に上げるとして、どうもここが限界な気がする。当初はあわよくば準1級でもねらうかとか思ったものだったが絶対ムリだ。高校生の我が娘には、大学に入ったら統計学の授業はとったほうがいいぞ、最前列に座って受けて質問は積極的にした方がいいぞ、と言う。いつもはうるさいなという顔しかしない娘だが、このときばかりは素直にそうだねとうなづいたのは、休日も悪戦苦闘しながら勉強したのに一度目は不合格、二度目になんとかぎりぎり合格した父親の後ろ姿を見たからではないか、と思うと、今回のチャレンジの最大の収穫はこれだったかとも思うのである。

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

ChatGPTの頭の中

2023年08月14日 | 数学・統計学
ChatGPTの頭の中
 
スティーヴン・ウルフラム 訳:高橋聡 監訳:稲葉通将
早川書房
 
 
 薄い新書でとっつきやすいかと思ったらおそろしく難解であった。こちとらなんとかG検定を合格した身だが、ここに書いてあることの4分の1も理解できていない。そもそも理解するのに大苦戦したG検定の参考書に書いてあった用語や概念が、こちらでは知っていて当然のごとく情け容赦なく怒涛のように押し寄せる。
 
 著者のスティーヴン・ウルフラムは理論物理学者である。世界的なステイタスのある人で、あの数学ソフトウェア「Mathematica」を開発した人でもある。「Mathematica」とは数学の複雑な演算や統計的なシミュレーションを行えるかなり本格的な数理計算ソフトウェアのことで、理系の研究室なんかではポピュラーな存在だ。
 
 しかし、世界的数学者が見えている世界というのは、凡人の解像度を大いに超えているものであって、本書の記述を読みながら彼がまなざしの向こうに何が見えているのかを想像するのは非常に難しい。ChatGPTの頭の中の前にスティーヴン・ウルフラムの頭の中を知る必要がありそうだ。
 
 こういう翻訳書でわけがわからないとなると、その八つ当たりが訳者にむけられることがある。しかし本書では、この方面に実績がある訳者が起用されたようだし、しかもご丁寧に監訳者も別に用意されている。わざわざ監訳がついているくらいだから本書はわかる人はわかる内容になっているのであろう。ちなみに2023年8月11日時点でAmazonのレビューを見てみると、16件のレビューがついており星は平均で4つと表記されていた。そこそこ高い印象を受ける。
 
 Amazonでは星の平均点だけでなく、星のつき方の内訳も提示されている。本書は以下のごとくであった。
 
 星5つ・・62%
 星4つ・・・8%
 星3つ・・・8%
 星2つ・・13%
 星1つ・・・8%
 
 星5つが最多である。この難読本を読破して高い評価を付けた人は少なからずいるのだが、しかし難しすぎたのか低スコアのほうにも星2つを中心に山がある。みんながみんな高い評価をしたわけではないようだ。
 
 こんな風に評価のばらつきが単純ではなさそうなとき、算出したくなるのが統計学で言うところの「分散」である。「分散」というのはデータがどのくらいばらついているのかを示すスコアだ。昔取った杵柄で計算してみる
 
 平均が4.0なので、分散値を出すには
 
 (5-4)²*0.62+(4-4)²*0.08+(3-4)²*0.08+(2-4)²*0.13+(1-4)²*0.08
 
 という計算をする。この計算式を解くと答えは1.94になる。ついでに分散の平方根である「標準偏差」というスコアも出しておこう。そうすると
 
 平均 4.0
 分散 1.94
 標準偏差 約1.39
 
 というのが、本書におけるAmazon評価の分布ということになる。
 標準偏差1.39というのは、雑に言うと各々がつけた評価点の平均点からの距離が平均1.39という意味だ。5段階評価という尺度でのそれだから、ばらつきは大きいとみていいだろう。
 
 以上の計算は面倒な手計算をしなくても、Excel統計などの統計ソフトウェアに数字をぶちこめばあっという間に出てくる。そういう意味ではこの手のものはコンピュータのお手の物の世界のはずだが、本書「ChatGPTの頭の中」で指摘しているように、実はChatGPTは数字の計算が大の苦手であることが知られている。
 
 そこでChatGPT3.5にどんなものか計算をしてもらおう。以下をプロンプトで問うてみた。
 
——————

とある書籍の星取り評価をみたら、以下のようになっていました。
 
 星5つ・・62%
 星4つ・・・8%
 星3つ・・・8%
 星2つ・・13%
 星1つ・・・8%
 
この書籍の、評価の平均点と分散と標準偏差を出してください。

——————
 
 この問いに対するChatGPTの回答が以下である。雰囲気だけでもつかんでほしい。
 
——————

まず、各評価の星数を数値に置き換えます。
 
星5つ → 5
星4つ → 4
星3つ → 3
星2つ → 2
星1つ → 1
 
次に、与えられたデータをもとに平均、分散、および標準偏差を計算します。
 
平均 (μ) = Σ(評価 * 頻度) / 総評価数
分散 (σ²) = Σ( (評価 - 平均)² * 頻度 ) / 総評価数
標準偏差 (σ) = √分散
 
計算を行います。
 
平均 (μ) = (5 * 62 + 4 * 8 + 3 * 8 + 2 * 13 + 1 * 8) / 100 = 3.69
分散 (σ²) = ( (5 - 3.69)² * 62 + (4 - 3.69)² * 8 + (3 - 3.69)² * 8 + (2 - 3.69)² * 13 + (1 - 3.69)² * 8 ) / 100 ≈ 1.87
標準偏差 (σ) = √1.87 ≈ 1.37
 
したがって、この書籍の評価の平均点は約 3.69、分散は約 1.87、標準偏差は約 1.37 となります。

——————
 
 想像していたよりも、ちゃんと計算過程が文章で表示されて出てきたので一瞬ビビる。μとかΣとか使ってくるあたり迫力充分だ。本当はChatGPTは計算できるんじゃないの? と信じたくなる。
 が、よくみると計算結果が先に挙げたものと違うではないか。相手はAIだ。自分のほうが計算間違いをしたのではと再び怯むがここは落ち着こう。何度みてもChatGPTは計算を間違えている。
 
 平均 (μ) = (5 * 62 + 4 * 8 + 3 * 8 + 2 * 13 + 1 * 8) / 100 = 3.69
 
 μ(ミュー)なんて統計用語を出すのでそれっぽいし計算式そのものは正しいのだが、これ肝心の計算結果がやはりおかしい。だって平均は4.0だってAmazonが言っているではないか。
 ねんのためにGoogleの検索窓に上記式をコピペしたら、ちゃんと4.0が出た
 
 その先を見ていこう。分散を計算している箇所も計算式そのものはあっているが計算間違いをしている(前の行で出した平均μ=3.69をちゃんと代入しているところなどすげえと思ったが)。ChatGPTが出したこの分散(σ²)の複雑な計算式をGoogleにぶち込んでみたら答えは約2.06となった
 
 ちなみに最後に標準偏差としてChatGPTが示した「1.87の平方根が約1.37」というのは正解である。なぜこれだけ計算が正解できたのかは興味深いが、もともと代入すべき分散の値が間違っていたのだからこれでは意味がない。

 ここで確認しておきたいことは、ChatGPTは計算ができないことではなくて、計算ができていないのにあたかも計算できたかのようにそれっぽいなめらかな文章を回答してくる、という現象である。そういうアウトプットを出してくるChatGPTはどういう頭の中をしているのか、というのをこれから考えてみる。

 
 まず、ChatGPTはなぜあんなに上手になめらかな文章で回答してくれるのか。本書「ChatGPTの頭の中」は、ChatGPTが「文章生成モデル」としてどのような仕組みをとっているかを解説している。
 
 その仕組みのココロは「これまでに入力された単語から判断して次は何の単語を出すのがもっとも適切かを決めていく」というシロモノである。
 
 その判断力を鍛えるためにChatGPTは膨大な学習データを事前に読み込んでいる。その学習データとはWEBの大海を埋め尽くす莫大な文書である。それらを読み込むことで、例えば「小さい」と「子犬」がでてくればどうやらかなりの確率で「かわいい」が出てくるらしいというような言葉同士の関係値を、星の数ほどもある膨大なテキストデータから学んで類推できるようにしておくのだ。
 そのような気が遠くなるほどの数の言葉同士のつながりの強弱を計算し、そこに文法や構文のお約束ごとを学習させればChatGPTはなめらかな文章を生成できてしまう。

 しかも、このミラクルのような文章生成を実現させたことは、逆説として「文章を書くという行為は実はたいしたことないのだ」ということを暴き出したと著者ウルフラムは言う。難解な本書において僕が数少なく理解できて、しかも大いに膝をうったところだ。
 
 小論文の執筆のように、人間にはできてもコンピュータにはできないと考えられてきた処理が、実は計算処理の点から考えると、ある意味では思ったより容易だということだ。言い換えるなら、ニューラルネットがうまく小論文を書けるのは、小論文の執筆というのが、これまで考えられていたより「計算処理的に浅い」問題だったからなのである。(P,71)
 
 人間の言語は(そして、それを支えている思考のパターンは)、どうやら私たちが考えていたよりも単純であり、その構造はもっと「規則的」らしいということだ。そのことを暗黙のうちに明らかにしたのがChatGPTである。(P.128)
 
 つまり「なめらかな文章を書く」というのは、とっても文系的とでも言うか、直感やセンスが要求される所作のように思われるが、実は計算式に還元できるようなアルゴリズム(それも計算処理的に浅いw)だったというのだ。衝撃的である。さすが天才は言うことが違う。ディープラーニングの世界はまたひとつパンドラの箱を開けてしまった。かつてAIで東大入試に合格させる東大ロボプロジェクトというのがあってこれが挫折したのは国語の問題が解けそうにもなかったということだったが、最後の砦であった国語能力までAIに乗っ取られそうな勢いである。
 
 だけれど、そこまで周到に単語ネットワークを張り巡らせているのに、文章の中に数学的な論理を必要とする要素を求められるとChatGPTはしゃあしゃあと嘘をつく。それはなぜなのか。
 これは数字だけではない。固有名詞や固有の出来事を説明させようとするとしばしばChatGPTは適当なことをでっちあげる
 
 おそらく、数字をちゃんと計算できないことと現実に存在する特定の小説や人物を説明できないことは同じ原因だ。ChatGPTは固有性が高いものを扱う能力を持っていないのである。固有性が高いというのは、それそのものを表す正解はこの世の中にひとつしかない、というものだ。数字の計算も、特定の小説を語るのも、固有性の高い事象を扱っていることになる。(数字の計算というのは、正解がひとつであとはすべて間違いという極めて固有性が極めて高いものである)

 ChatGPTがなめらかな文章を生成することはできるのに、固有性が高い事象を書き出すことがてきないというのは、どうやら上手に文章を作り出す能力と、数字を計算したり小説の中身を特定させるような能力はトレードオフの関係にあるらしいということだ。それがなぜなのかは本書を読んでも僕の頭では理解できなかった。文章を構成する一部としての数字と、演算の対象として書かれている数字を見分けることが技術的に難しいということなのだろうか。それとも、なめらかな文章をつくろうとすればするほど固有性を排除する方向で演算が進むということなのだろうか。
 
 一方で、「人間ならばどういう文章が書けるか」もまたここから浮かびあがってくる。
 たとえ無骨で読みにくい文章でも、そのほんの一部分から読み手に思考の契機を提供したり、なにがしかの思考実験を促せるものならば、それは「人を動かすことができる文章」だ。そういうぐっとくる文章は、平易と平凡の枠外にあるからこそ読み手の心にひっかかる。我々はChatGPTにはできない文章を書けるようにならなくてはいけないのかもしれない。数字計算を織り交ぜた、文理ハイブリッドの文章はその候補に充分なりうる。今回の投稿はなんと「ChatGPTの頭では書けない文章」だったのである。
 本書「ChatGPTの頭の中」の大半は専門的すぎて理解できなかったが、ここまで「自分の頭の中」に思考の契機を与えてくれたのだから本書は買いであった。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

生と死を分ける数学

2020年11月11日 | 数学・統計学
生と死を分ける数学
 
キット・イェーツ 訳:富永星
草思社
 
 歳のせいか、本を読んでもなんか頭に入ってこない具合がひどくなっている。記憶に定着しないとでもいうか。読んでいるときはなにか面白くてためになることが書いてある気がするのだが読み終わるともう忘れているのである。一説によると、歳をとると生きてきたぶんだけ脳内に蓄積されたメモリーの量も溢れ気味になって、情報処理するときにエラーをおこし、うまく記憶が引き出せなくなるのだそうである。
 一度読んで頭に入らなかったのならば、また読み返せばいいのだけど、べつに必要にかられて勉強しているわけでもないし、義務感で再読しても面白くない。かといってそのまま忘却の彼方に葬り去られるのもくやしい。
 というわけで、同ジャンルの本を何冊か続けて読むことがある。読めばだんだんこの分野の基礎リテラシーがついてきて、少しは頭に定着しやすくなるし、同じエピソードが出てくれば、それは業界内で重要なエピソードなんだということがわかる。
 
 というわけで、「銀河の片隅で科学夜話」や「平均思考は捨てなさい」や「アルゴリズム思考術」といった数学にまつわる本を読んでいる。「銀河の片隅で科学夜話」に出てきた検査の偽陽性発生率が引き起こす勘違いの話がこちらでも出てきて、この業界では有名なパラドックスなんだと知る。「アルゴリズム思考術」に出てきたオバマ大統領がバブルソートについてコメントする話が出てきて、なるほど反響を呼んだんだなとわかる。
 
 本書で一番興味深いのは最終章、感染症のパンデミックシミュレーションを数学的に解き明かす数理疫学の章だ。本書が執筆された時点でコロナ禍はまだ起こってなかったため、本書の指摘は予言の書ともいえるし、あらためてコロナ禍を照らし合わせてみることで本書の当たり外れの点検もできる。
 それにしても、あの「人の接触を8割減らす」とか「2週間は自宅で待機」とかいうのはみんな数理疫学のシミュレーションだったのだということが本書でわかる。7割でも10日間でもないのはしっかりとした計算根拠があるのだ。
 本書によれば、その数理疫学を活用して封じ込めに成功したのがエボラ出血熱とのことだ。しかし、西アフリカでおきたあの伝染病も、終結宣言が出るまでは2年半かかったそうだ。ということは、全世界に広がったコロナに終結宣言が出るのはいつのことだろうか。(そのまま風土病になる可能性もある)。
一方、イギリスにおける麻疹の再流行の話も興味深い。反ワクチンキャンペーンのため、ワクチン接種率が90パーセントから80パーセントに減ってしまった。たいして減ってないように見えるが、実はこのスコアの間に事態を相転移させる閾値が存在した。麻疹の患者はなんと20倍に増えたのである。ネットワークインパクトの恐ろしさをみる思いがする。
 
 ところで、本書のタイトルにある「生と死を分ける」、なかなか剣呑なタイトルだが、これが本書のコンセプトである。数理疫学なんかはその最たるものだろう。
 とはいうものの本書でとりあげられる事例の多くはもっと生臭い。数字というのは客観性の代名詞みたいなもので、しばしば証明や証拠に用いられる。しかし、その数字を用いるのはやはり人間であって、使い方を間違えると本人の意図に関わらず大変な結果をもたらす。まして人の命や人生がかかっているときは。本書ではそういう数字の間違った使い方による被害者、犠牲者が次々出てきて暗澹たる気持ちになる。
 
 とくに顕著なのは「統計」である。
 統計がいかに胡散臭いものであるかは「統計でウソをつく法」という古典的名著があってこれは文系理系問わず読んでおいて損はないと思うが、統計に限らず、何かの数字が誰かへの説得に使われるときは、ほぼ間違いなくその数字は客観的中立的根拠ではなく、説得のレトリックとして都合よく用いられると思ってよい。あからさまな「嘘」は少なくとも、いい加減だったり歪曲されたり、都合の悪いものは隠された統計の引用例はごまんとある。しかし、数字のもつ信頼感(宗教といってもよい)は、市政の人間を動かすに十分な力がある。
 説得に統計を持ち込んだのはナイチンゲールが最初だという説がある。これをして彼女のことを「統計学の母」と呼ぶむきもある。ナイチンゲールをペテン師視するつもりは一切ないが、ナイチンゲールはイギリス政府を動かしたくてその説得の材料に統計を用いた。この「動機」は事実である。実際にイギリス政府は、ナイチンゲールの示した統計によって動いたのだった。統計とハサミは使いようである
 
 
 「統計」についつい説得されてしまうのは、人が「数字」が示す肌感に弱いということでもある。人間の想像力を刺激してしまうのである。
 しかし、人間の想像力が追いつきにくい「数字」というのもある。そしてこれがまたその想像しにくさゆえに、人の生死に関わったりする。その代表例が「指数関数的増加」だ。ねずみ講とかウィルスの増加などでみられる増加スタイルだが、どうも人間が生理的に持つ想像力と相性が悪く、その本質をなかなか脳みそが受け付けようとしない。サイエンティストならばともかく一般の生活者にとっては直観的にそれを感じる機会がなくて抽象的になりがちなためか、なかなか適正な把握ができない。よって放射線の被ばく量を表すシーベルトのグラフや、リボ払いの複利計算などで、本来とは違う直線的増加に誤解釈してしまい、過剰な心配をしてしまったり、逆に過小評価しすぎて大変な目にあったりする。本書は翻訳書なので、すなわち指数関数的増加に人間の想像力が追い付かないのは万国共通ということらしい。
 ただ、教えれば”あれが指数関数的増加だったのか”と多くの日本人が持っている原体験がある。
 それは、ドラえもんの「バイバイン」だ。あのマンガやアニメを子供のころにみた人は、その指数関数的増加の恐怖を原体験的に味わっている
 いちおう説明しておくと、バイバインとはドラえもんのひみつ道具のひとつ、この薬を垂らした栗まんじゅうを、5分間ほっておくと分裂して二つに増える。さらに5分待つとそれぞれが二つに割れて全部で4つになる。わあ、おやつが沢山になったぞ! オチは推して知るべし。指数関数増加の性質を持つものは原則として警戒すべきなのだ。宇宙に打ち上げられたあの栗饅頭は、そろそろ自重に潰されてブラックホール化しているかもしれない。

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

アルゴリズム思考術 問題解決の最強ツール

2020年10月14日 | 数学・統計学
アルゴリズム思考術 問題解決の最強ツール
 
ブライアン・クリスチャン&トム・グリフィス 訳:田沢恭子
 
早川書房
 
 本書には「秘書問題(運命の人はいつ現れるか?)」「スロットマシーン問題(どのマシンが当たりかを探し当てる問題)」「順列並び替えのライフハック(野口悠紀雄の超整理法も出てくるぞ!)」「上手なプロジェクト進行スケジュールの立て方(料理の段取りがうまい人ってこういうこと)」などが紹介されている。これらに共通するのは、未来への意思決定だ。
   未来というのは、本来的にはどうなるかわからない不確定なものである。したがってその意思決定が本当に正しかったのかはその未来が現実になるまでわからないし、その意思決定によって選択されなかったほうの未来は、本当にそれが間違っていたのか永遠にわからない。
   ところが、この「アルゴリズム思考」は、そういう不確定なはずの未来への意思決定を、ロジックを極めることで、現時点にいながら最適な行動を選択できる、という驚異的なものである。そのからくりたるや、確率統計論とかベイズ理論とかラプラス公式等が出てくる。訳者もたいへんだったに違いない。
 
 正直いって、本書を読んでそのからくりを理解できたとはとうてい思えない。もうすぐ50になろうとする中年おっさんの頭にはなかなか入らない。もっと若いころに読んだらもうちょっと理解できたかもしれないなあ。
 
 とは言うものの、このアルゴリズム思考なるものは面白い。不確定なはずの未来をあたかも制御するような感覚は、まるで魔法をみるようだ。
 こちらもかつては統計を生業にしていたこともある身。細かいロジックはともかくその肝は、
 
①最後から逆算する
②閾値を見抜く
③近似値でよしとする
③ルールを見抜く
 
 というところにあるような気がする。
 
 ①最後から逆算する、というのは、バックキャスティングという思考法として知られている。もっともわかりやすいのが「スケジューリング」と呼ばれる分野だ。料理が上手な人は最後に同時に複数の料理が出来上がる。彼らの頭の中には、最後に同時にできるには、というところから逆算してどの段階で何ができてなければらないか、何を先にやっておこないといけないか、ボトルネックとなる作業は何かというのを算段し、着手するのである。
 これはゴールを設定して、そこから最短距離をみつけだす方法だから、未来にむかってもっとも合理的な道筋を用意するということになる。当たり前の話のようだが、逆算思考はそれなりに脳みそを要求し、センスと訓練がいる。ついつい見切り発車してしまって余計な回り道や浪費を食ってしまうのが人の常である。
 
 ②「閾値」を見抜くとは、その現象がどこにむかって収束しているかというポイントを見抜くということである。先の「秘書問題(運命の人はいつ現れるか?)」はこれの代表例で、俗に「37%ルール」と呼ばれる。たとえば18-40才を出会いの機会と考える人は26才を過ぎたあたり(時間軸上で約37%くらいに位置する)の時点で「いいね」と思った人と結婚するのがもっとも賢い選択という結果が出てくる。(26才時点でつきあっている人がいてその人で特に不満がないのならば、もうその人と結婚したほうがよい)。それを「もっといい人がいるかもしれない」と逃してしまうと、釣り逃がした魚は大きい、という結果に終わるリスクが高くなる。
 では、なぜ約37%なのかということ証明の演算はなかなか難しい。この約37%とは正確にいうと、自然対数の底であるeの逆数なのである。eというのは、この世界を成立させる力学のかなり肝に近いところを支配する数値であるからして、この約37%という特異点が示す意味というのはなかなかに骨太にして深淵なのである。
 
 ③は教訓だ。完璧な到達目標を定め、そこに完全に合致するようにしようとするとものすごく労力・時間・コストがかかるが、“だいたいそこらへんでよし”というところを目指すならば、かなり労力・時間・コストはおさえながら、現実的にはほぼ当初の目的を達成できる。東京メトロ地下鉄を使って銀座駅から六本木駅にいく真の最短ルートを探し出すのは大変だが、とはいえ、よほど見当違いの方向にむかわない限り、どのルートを通ってもその差はせいぜい10分以内である。だったらそこに突っ立っていろいろ調べている時間より、さっさと乗ってしまったほうがよい。
 むしろ正確性を追求しようとして、多大に情報を集めたりすることは逆に「オーバーフィッシング」という現象を起こす。過剰に部分最適化を起こしてしまったり、情報収集に時間を集めすぎて、活用の方に十分な時間が得られず、当初の目的から離れていったりするのだ。
 
 ④はアルゴリズムで支配される世の中との付き合い方だ。ルールを見抜く、というのは「その支配からの逃れられ方」ということである。実は「秘書問題」も「スロットマシーン問題」も「スケジューリング」も、ゲームのようにルールが先に与件として存在していてそれに従って計算すると・・という世界である。アルゴリズムとはそういうものだ。だから前提が変われば計算方法も変わる。例の「秘書問題」37%ルールも、現実的には「相手が断ったらどうするんだ」とか、「以前振ってしまった人にもう1回アタックするのはどうなんだ」とか「最初はなんとも思ってなかったのにだんだん好きになる場合はどうするんだ」とか留保条件をつけると計算方法はどんどん変わっていく。だから、与件を疑うというのは大事なことなのだ。いくら自然対数の底eが相手だとしても、あなたは無批判的に「37%ルール」の奴隷になってはいけないのである。
 そして、実際の世の中を渡っていくとき、変な力学が働いているなと思った時(集団心理的な社会現象や不自然な出会いがある時など)は、何のアルゴリズムがそうしているのかをメタの視点で眺めてみることだ。本書の最後は「ゲーム理論」で、オークションにおける情報カスケード化現象を扱っており、「誰かが自分自身のシグナルを無視して、ただやみくもに先行者についていこうと決めると、非常に重大な影響が生じる」と指摘している。コロナ初期にあったトイレットペーパー買い占め問題なんかがこれだろう。下手にアルゴリズムの中に絡み取られると良くない流れに巻き込まれるリスクがある。そういうときは、絡み取られる前に、そのアルゴリズムを支配するルールの外に脱したほうがよい。(いわゆる「ゲームチェンジャー」というやつである)
 
 
 本書を読んで気づいたことは、未来を少しでもよくしたいならば、直感よりも多少「楽観的」な方に判断したほうが良いということだ。
 「目の前の人が運命の人」と思ってよいし(人はたいていバイアスが働いて見送りがちなのだそうである)、「勝てばキープ、負ければチェンジ」で概ね外さないし、「最も直近に接したものはやはり最も重要なもの」だし、「偶然の産物はむしろ事態を良いほうに化けさせる」力を持つし、「何かを判断するにあたっての情報の量はほどほど」でよいし、「疑わしきは罰せず」で良いし、「はじめのうちはじゃんじゃん失敗してよい」のである。これがアルゴリズム思考と野性的本能が交差するところである。
 

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

心配学 「本当の確率」となぜずれる?

2017年01月19日 | 数学・統計学
心配学 「本当の確率」となぜずれる?
 
島崎敢
光文社
 
 
 本書は、「リスク」というものの本である。
 われわれは自分の健康や生命を脅かすリスクというものをどう感受するか、そしてそれは実際の確率とどう違うかというのを平易な文章で書いている。
 たとえば、「交通事故で死ぬ」のと「インフルエンザで死ぬ」のと「殺人事件で死ぬ」のうち、我々はどれをもっとも怖がっているだろうか。怖がるというのは、心配しているということであり、リスクを感じ取っているということである。
 僕の気持ちで言うと、怖がっているのは「殺人事件」→「交通事故」→「インフルエンザ」である。
 ところが本書の計算によれば、この3つが起こる確率は、
 ・インフルエンザで死ぬ  10万人中8.3人
 ・交通事故で死ぬ     10万人中3.3人
 ・殺人事件で死ぬ     10万人中0.52人
 なのである。
 ちなみに「タミフルの副作用で死ぬ」のは、10万人中0.001人なんだそうだ。
 もちろんこれは全年齢をあわせているから、年代を区切ったりするとまた違う結果にはなるとは思うけれど、インフルエンザによる死亡というのは交通事故よりも多いのである。
 また、タミフルの副作用を心配するよりは、そのままインフルエンザで死亡するほうが確率的には大きいということになる。
 
 
 「リスク」とは、「頻度」×「起きたときの事の重大度」 で計算する。
 
 ところが、「頻度」も「起きたときの事の重大度」も、とかく主観的になりがちだ。
 「頻度」なんて統計そのままのように思うが、これまでそうだったらこれからもそうとは限らないし、「体感治安」みたいに、実際と皮膚感に相違がある「頻度」もある。
 起きたときの重大度も、人によってとらえ方が違うだろう。
 
 なので、「リスク」の程度というのは、なかなか他人と共有できない。リスクの程度を共有することを、本書では「リスク・コミュニケーション」と称しているが、お互いの言語感覚、前知識、価値観その他で、リスク・コミュニケ―ションがいかに困難であるかを説明している。顕著な例が、福島原発事故における放射線リスクにおける政治家、科学者、マスコミ、市民のやりとりだろう。延々の平行線といってもよい。
 
 本書は、リスクというものをどう受け止めるか、どう判断するか、という話が中心になっているのだが、ところで「リスク」という言葉。たんに災害発生だけでなく、生活一般においてしばしば使われる。
 ここらあたり、水無他気流の「無頼化した女たち」でも指摘されているのだが、たとえば「専業主婦になることのリスク」とか「大学院に進学することのリスク」とか、「公務員になることと民間企業に就職するのとどちらがリスクが少ないか」。
 
 水無他気流は、この「リスク」のニュアンスを絶妙に言い表した日本語がないことを指摘している。
 ここでいう「リスク」とは、自分がこの先平和に、金銭的余裕をもって生きていけないかもしれない、というリスクだ。厳密にいえば「頻度」×「起きたときの事の重大度」で思考実験してみることができるかもしれないが。むしろ「先が見えないことの不安」そのものをずばりリスクと称しているように思う。
 
 本書のタイトルが「心配学」というのはまことに秀逸で、なるほど「リスク」というのは確かに「頻度」×「起きたときの事の重大度」かもしれないが、けっきょく「頻度」も「重大度」も主観的な判断になってしまう以上、その掛け算は、「心配」という感情にしかならない。一般の生活者はそうである。
 本書では、少しでもリスクを減らすには、ということで天災や事故や病気に対しては正しい知識と「備えあれば憂いなし」ということを言っているわけだが、「専業主婦になることのリスク」に対しての備え、「大学院に進学することのリスク」に対しての備え、「公務員になったときのリスク」に対しての備え、あるいは「民間企業に就職すること」に対してのその備え、ということになると果たしてどういうことになるんだろうか、などと思ってしまう。
 
 

  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

統計学が最強の学問である

2013年04月21日 | 数学・統計学

統計学が最強の学問である

西内啓

 

 売れているようだ。そんなに統計がはやっているのだろうか。例のビックデータというやつのせいか。

 僕は、ここでも書いたけど、いぜん統計解析を仕事にしたこともあって、ここに出てくるようなロジスチック回帰とか、重回帰分析とか、カイ二乗検定とか、いちおうは通過している。
 いちおう、というのは決して何かの資格を持っているとかいうことはなく、単に現場で無理やり覚えさせられたに過ぎない。だから、正確に理解していたとか、計算のアルゴリズムをしっかり勉強したとかあ、S言語を習得したかというとまったくそんなことはない。

 当時はまだビックデータはもちろん、データマイニングなんていうコトバも流通していなかった。
 ただExcelで使える統計解析ソフトはあった。顧客からPOSデータとか通行量データとか、お客さんのアンケート結果なんかもらってはせっせと入力してぐるぐると解析ソフトをまわしていた。

 統計というのは実に地味な仕事である。そもそも統計というのはリスクヘッジの権化なのであって「今までこうでした。だから次もこうでしょう」ということをやる分野である。だから実に夢がなかった。

 で、この仕事からおさらばしてしまったわけだが、その後、グーグルのベイズ理論に基づいたページランクというアルゴリズムが着目されたり、データマイニングが話題になり、そしていまやビックデータである。

 本書でも指摘されているが、ビッグデータだろうと、サンプリングデータだろうとあまり違いはない。少なくとも違いがないことのほうが多い。
 ビッグデータの本質は、何万人のデータベースができたということではなくて、ライフログというところにある。購入履歴とか閲覧履歴のような、本人が気づかないうちにあちこちで残した痕跡からある種のパターンを見抜くのである。だから、ライフログされあれば、サンプリングで構わない。
 重要なのは、これまでアンケートとかせいぜいレジでのPOS管理システムくらいでしかとれなかったデータが、ライフログとしてかなり細かいところまでとれるようになったからだ。最近はさらに、携帯電話やスマホに仕込まれているGPSデータを使って、移動パターンまで採取しているようで、大きなお世話もいいところである。

 というわけで、トムクルーズ主演の映画「マイノリティレポート」みたいなことがほんとうに現実化しつつある昨今で、個人的には辟易気味なのだが、統計というビジネス分野がトレンドなのは間違いないだろう。とはいいながら、統計そのものは完全競争産業に近いところもあって、だから小さなプロダクションみたいな会社にどんどん外注されていくわけで、コールセンター業務みたいに、そのうち中国やインドの企業とかに丸投げされてしまいそうな予感もある(もうされている?)。

 そんなわけで僕は統計というものは実に野暮で無粋なイメージ(トラウマともいう)があるのだけれど、ゆいいつ面白いなと思ったのは、本書でも紹介されているテキストマイニングである。
 これは、文章の書かれ方や頻出する単語の特徴をつかまえて、なんらかの傾向を読みとるもので、自由回答記入のアンケートとか、コールセンターの問い合わせ内容とかを分析する際に用いるのだけれど、計量文献学的な世界では急にミステリー小説の謎解きみたいなカタルシスが出てくる。
 本書では、シェークスピアとベーコンの文章の書かれ方の相違をみてこの2人が別人であることを示すエピソードが出ているが(この2人は同一人物という説がある)、僕が見聞きしたのは、源氏物語の五十四帖をしらべてみると、いくつかのグループができあがり、別人か、あるいは相当の年月の隔離があって書かれ、それが必ずしも五十四帖通りの時系列にならない、という話だったり、宮沢賢治の小説に出てくる色彩語の頻出パターンから、彼の色彩空間感覚を再現してみると意外にも白色系統が多いという試みだったりする。こういうのは“知の探究”のようで楽しい。

 ようするに僕は統計がキライなのではなく、統計で武装してビジネスをやりぬいていこうという気概が無い、つまりそもそも仕事が好きでないというだらしのない結論になってしまった。

 


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする

人は原子、世界は物理法則で動く

2009年09月09日 | 数学・統計学

人は原子、世界は物理法則で動く-社会物理学で読み解く人間行動…著:マーク・ブキャナン 訳:阪本 芳久

 「物理学」というよりは「生態学」といったほうがよいかもしれない。「生態」の力学は競争と協調のメカニズムがあり、その振る舞いを規定するプログラムやパラメータは、あらかじめきっちりと与えられているよりは、自分の経験と学習で規定されているという「自己組織化」で仕込まれている。
 自己組織化というのは、数式で表すと「 f(z)=z^2+c 」というやつで、要するに、ひとつ手前の環境条件に対してどのような振る舞いをするか、という規定をしておく、ということだ。こうしておくと、それによって引き起こされた結果に対し、今度はそのときの環境条件で次の振る舞いも規定されていき、その結果が、さらにその次のふるまいを規定していく、という風に無目的に事態が進んでいく。
 つまり、15年くらい前に流行ったライフゲームや複雑系やフラクタルやカオスあたりの話なのであるが、この世界観が、「予測不能」とされたリーマンショック以降のブラックスワン状態において、再び装いも新たに出てきたという感じだ。そういった自己組織化の観点を組み入れることによって、この「100年の1度の危機」も十分に想定の範囲内であったことを指摘している。

 そこでのキーワードは「べき分布」というやつだ。相対する言葉は「正規分布」である。
 「正規分布」というのは、これまで長く信じられた確率分布(釣鐘型分布)で、コインをN回投げたとき、表がM回出る確率というやつで、Nの回数を10000回、20000回と増やしていくと、ほぼ誰がいつどこでやってもズルしない限り同じような分布になる、というやつ。説明するとかえってややこしいが、直感的な世の中の確率分布はそんなもんだろう。
 で、世の中の確率予想のものさしとして非常に重宝されたわけだが、1つだけ重要な見落としがあった。それは、コインそのものにまったく意思がない、ということだ。コインが、さっきは「表」だったから今度は「裏」を出してやろう、とか、さっきも「表」だったから、今度も「表」でいこう、なんて意思を働かせない。
 だが、ここで「生存(勝ち残る)」という概念をいれたらどうなるか。1枚のコインを10000回投げるのではなく、10000枚用意して、その中でコイン達の生存競争が働いているとする。時と場合によって異なるが、「さっきもAだったから今回もA」、あるいは「アイツはAだったから、オレはB」という意思が働くのである。つまり、1つ手前の状況が次に何を繰り出すか、に影響を与える。「自己組織化」である。要するにフィードバックが働くのである。

 で、実は現実の世界で確率予測をたてるとき、予想の対象、それは金融でも自然でも、たいていにおいて「生存」の意思が働いていて、行動パターンに自己組織化が働き、素直に「正規分布」にならないのである。
 この「生存」の意思というのが非常に巧みで、「生存」するためには他者を出し抜かなくてはならない。他者を利用したり、場合によっては他者を蹴落とす。つまり、「自分と他者との相対的な位置関係」こそが重要といった、駆け引きの力学みたいなものが「正規分布」には反映されない。「べき分布」はそこを補正している。
 ではどういう風に分布になるかというと、それこそが「べき分布」で、「正規分布」に比べると、末広がり型になる。もう少しいうと、「正規分布」では滅多に起こらない、とされる事象が、「べき分布」では、それなりに起こり、頻繁に起こるとされる事象が、そこまで頻繁でもない、という具合になる。「100年に1度」が「30年に1度」くらいのものになる。
 
 本書では、この「べき分布」に代表される「自己組織化」が、たとえば「金持ちのところにお金はますます集まり、貧乏なところからお金はますます逃げていく」といったネットワーク理論的な指摘、あるいは同一グループ内での利他的行為と、他グループへの排他的行為の相互増幅が、ジェノサイド発生の力学の説明に耐えうるものとして引用される。

 むしろ定理とでもよんだほうがいい法則だから、本書の通りだとすれば、それに抗うことは100%不可能ということになる。せいぜい、社会はこういった生態学的な事態の変容の上に成り立っていることをまず前提としてとらえ、それに対処する方法として、直感以上に、高いと思われる確率は低く、低いと思われる確率は高く見積もり、事態は急転する(相転移)、というリスクを持つということだろうか。

 社会の捉え方のトレンドは、このような単純な法則性に帰結させることと、所詮すべては認識の世界なのだ、という脱構造に向かうものと両翼あるようだ。


  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする