大学4年間の統計学が10時間でざっと学べる
倉田博史
KADOKAWA
昨今は統計学がトレンドである。AIやビッグデータの隆盛がその背景にあるのは間違いない。企業の採用でもその手の人材を募集していたり、大学がその名を冠した新学部を創設したり、学生全員を必修科目にするなどしてアピールに余念がない。
本来的に統計とは試薬の開発や気象分析などサイエンスの分野を支える手法だが、いっぽうで人々を説得するロジックとしてしばしば引き合いに出された。戦場の天使ことナイチンゲールは統計の論法を用いて国を説得し、大規模な医療改革を引き出した。かつて多変量解析は心理学の研究で用いられることが多く、日本の大学では文学部心理学科に統計学の講義があったりした。20世紀も終わりごろになって企業が製造過程において生産効率性をはかるスローガンとして統計誤差に注目するようなことがあった。
僕は大学を卒業して数年ほどデータ統計をなりわいにしていた小さな会社に在職していたことがあった。大手企業のマーケティング部署が出してくるデータのアウトソーシング先みたいなところだった。僕自身は大学時代にいっさい統計学の授業をとったことがなく、統計については全く無知であった。それなのになんでこんな会社のこんな仕事にまわされたのかというと単にExcelが使えたからである。そんな時代であった。僕の仕事が、当時の日本のGDP向上にどのくらい貢献したのかはさっぱりわからないが、僕自身がここで統計というものを知ったのは役得ではあったと言えよう。
ただ、そういう在野で身につけた知識の故、その中身はたいへんムラがあるものだった。なにしろ計算そのものはExcelのソフトウェアがしてくれるので我々は出てくるスコア表を見ればよい。出てくるスコアが信頼に足るものかどうかはP値なるものをみて0.05を下回っていればよいとか、そういうのは覚えたが、ではP値というのはいったい何者で、なぜ0.05を下回ればいいのかなんてことは二の次であった。そのくせクラスター分析とかコンジョイント分析とか手数だけはいろいろやってみて重宝されたが、これらの分析の計算過程はブラックボックスで、ただ出力されたスコアが信頼できるかどうかをマニュアルにしたがってチェックするだけだった。
現場でいいかげんに身に着けたそのような統計学にプライドとコンプレックスがあったまま幾星霜、ここにきて統計ブームである。勤め先も立場も変わり、いまの自分の職務は必ずしも統計知識とは関係ないのだがなにしろ世間が追い風なので何かと会社はデータデータ言ってくる。実際に、膨大なビッグデータをぐるぐるまわして脚光を浴びる若手社員なんてのも出てくる。
そうなってくると「俺だって若いころは統計やってたんだぜ」と言いたくなる欲求がムズムズわくが、これは老害以外のなにものでもない。ただ、ロートルのレッテルを貼られたままなのも癪である。
ということで、統計検定を受検してみることにした。統計検定は1級・準1級・2級・3級・4級とある。統計の知識を問う資格については他にも姉妹的な検定がいくつかあるが、もっともスタンダードなのはこの統計検定だ。英検みたいなものである。
その統計検定の中でも特に2級が目安とされていて、これをとっておくといちおう「この人は統計ができる」と市場価値として認められるとされる。
というわけで統計検定2級にチャレンジしたのである。「昔やってたんだぜ」はウザいだけだが、「2級持ってるよ」ならば、もう少し人としてなめられなくて済むかもしれんなんて思ったのである。去年の夏頃の話だ。
そしたら、ものの見事に玉砕した。もちろんぶっつけではなくて過去問なんかもぱらぱらみたのだが、合格点ラインが60点というのでまあなんとかなるだろうと油断したら、もう全然届いていないのである。
というより、改めて考えると、齢50にもなってこの手のテストは本当に久しぶりなのである。これまでもいくつか資格試験や検定みたいなのものを受けたことはあったが、それらは基本的には「暗記」であった。まれに計算問題を課すものもあったがそれとて全出題のごく一部であって、なんならその問題は捨ててしまっても他で点がとれれば合格に影響しないものであった。
しかし、統計なのだから当たり前なのだが、出題の大半が計算問題なのである。そんなテストを1時間半にわたって受ける。いまから30年以上前、大学受験以来なのではないか。その30年の間に、当方の脳みそは劣化し、集中力は続かず、出題文を読む目(試験会場ではパソコン画面で行う)は老眼でおぼつかず・・・
「不合格」の画面がパソコン上にパンと出たときは絶望的な気分になったものの、それから心を入れ替えて本気で3か月ほど勉強してみた。過去問集や何冊かの参考書を相手にウンウンとやって年末に再受験したら、今度はギリギリの点数で合格した。これだけ真面目に一生懸命やったのだからもう少し点数はいくかと思ったのだが、本当にギリギリで、あと1問か2問ほど間違っていたら不合格というレベルだった。
勉強の最後のほうは、統計知識を得るというよりは単に試験対策みたいになってしまい、このパターンの問題が出たらこのパターンの解答みたいな強引なスタイルになってしまっていた。そこで合格後に改めて手にしたのが本書なのである。
ともあれ統計検定2級は合格したし、改めてこれを読めばもう一度情報も整理できて人前で「自分は統計ができる」と言ってしまって、なにか返り討ち的な質問をされてもまあ大丈夫かなと思ったのだが、意外にも本書を読み解くことは苦難だった。さんざん検定対策をして、そのうえで本書を読んだ上の感想だが、「10時間でざっとわかる」のは無理なんじゃないのだろうか。もちろん各章題である「分散」「t検定」「独立性の検定」「標準化」などがなんであるかはわかる。というか、それは本書を読む前から勉強していたのだから知っている。しかし、そこに書かれている解説がけっこう晦渋なのだ。自分が勉強したものはこれだったっけ、みたいな戸惑いを感じる。これ、統計学初見の人がよんでわかるのかなあ、などと思ってしまうのである。
はやりの学問だけあって、書店にいくと「文系でもわかる統計」「中学生の知識でわかる統計」など、お手軽にマスターできそうな統計本が揃っている。暗記物がメインの資格検定はそういうショートカットもありそうだけど、本来が数式と厳密なロジックで成立している統計学はあまり近道がないのではないかと思う。
と書くと、なんだか教訓と自慢みたいな繰り言で終始してしまうので、なんでそうなってしまうのかというのをさらに考えてみたい。今回のブログ、かなり長文になってしまった。
統計学について学ぶのに一番いいのは、教師役の人と問答しながら双方向で確認しながら進めていくことではないかと、これは独学で参考書を読んだり問題集と解きながらずっと思っていたことではあった。扱うデータもビジネス現場などで扱っている実際のものであればなおよい。というのは結局のところ、統計学の学びの対象は、実際のデータと、どのような論理で成り立っているかという話と、そしてそれをもとにした数式がすべてだからである。
だけれど、これを一方通行の文章だけで表現して読み手に伝える、というのは参考書の書き手にとってはかなり厄介な仕事なのではないかと思う。統計学の先生なんてのは、想像するに文系的な言語ボキャブラリーが豊富とも思えないし、数字と数式で成立する世界の解説をいちいち日本語の文章で説明するのは外国語の翻訳と同じで隔靴掻痒であろう。厳密に定義しなければならないものほどコトバがもつ冗長性が障害になる。統計学には「棄却する」とか「独立の元では」とか「信頼空間が」とか「自由度」とか変なコトバがいっぱい出てくるが、これも数学の世界によくある定義の厳密性を追求しようとしてこんなへんな日本語になる。業界内では通用しても部外者にはその意味するところはなかなかピンとこない。本書は「10時間でざっとわかる」シリーズの一環で、経済学とか社会学とかいろいろ出ている中の1冊だが、統計学でこの制約を要求された著者も気の毒ではある。
つまり、統計学(おそらく数学全般に言える話だろうが)を解説書形式で説明するのは、書き手としても高度な技術を要するし、読み手がそれに対してこの文章はどういう意味か、このコトバは何かの質問も確認もできないという一方的読書体制で学ぶのはなかなか効率が悪いのだ。変に四角張った意味がはかりにくい文章と、わかりやすいけど書き手によってその説明の仕方がぜんぜん違ってしまう解説が混在するのが統計学の参考書なのである。要するに参考書だけの独学勉強方法はムリゲーと言ってもよい。
というわけで、僕がやった勉強スタイルでは、年齢のことは棚に上げるとして、どうもここが限界な気がする。当初はあわよくば準1級でもねらうかとか思ったものだったが絶対ムリだ。高校生の我が娘には、大学に入ったら統計学の授業はとったほうがいいぞ、最前列に座って受けて質問は積極的にした方がいいぞ、と言う。いつもはうるさいなという顔しかしない娘だが、このときばかりは素直にそうだねとうなづいたのは、休日も悪戦苦闘しながら勉強したのに一度目は不合格、二度目になんとかぎりぎり合格した父親の後ろ姿を見たからではないか、と思うと、今回のチャレンジの最大の収穫はこれだったかとも思うのである。
光文社
・交通事故で死ぬ 10万人中3.3人
・殺人事件で死ぬ 10万人中0.52人
また、タミフルの副作用を心配するよりは、そのままインフルエンザで死亡するほうが確率的には大きいということになる。
統計学が最強の学問である
西内啓
売れているようだ。そんなに統計がはやっているのだろうか。例のビックデータというやつのせいか。
僕は、ここでも書いたけど、いぜん統計解析を仕事にしたこともあって、ここに出てくるようなロジスチック回帰とか、重回帰分析とか、カイ二乗検定とか、いちおうは通過している。
いちおう、というのは決して何かの資格を持っているとかいうことはなく、単に現場で無理やり覚えさせられたに過ぎない。だから、正確に理解していたとか、計算のアルゴリズムをしっかり勉強したとかあ、S言語を習得したかというとまったくそんなことはない。
当時はまだビックデータはもちろん、データマイニングなんていうコトバも流通していなかった。
ただExcelで使える統計解析ソフトはあった。顧客からPOSデータとか通行量データとか、お客さんのアンケート結果なんかもらってはせっせと入力してぐるぐると解析ソフトをまわしていた。
統計というのは実に地味な仕事である。そもそも統計というのはリスクヘッジの権化なのであって「今までこうでした。だから次もこうでしょう」ということをやる分野である。だから実に夢がなかった。
で、この仕事からおさらばしてしまったわけだが、その後、グーグルのベイズ理論に基づいたページランクというアルゴリズムが着目されたり、データマイニングが話題になり、そしていまやビックデータである。
本書でも指摘されているが、ビッグデータだろうと、サンプリングデータだろうとあまり違いはない。少なくとも違いがないことのほうが多い。
ビッグデータの本質は、何万人のデータベースができたということではなくて、ライフログというところにある。購入履歴とか閲覧履歴のような、本人が気づかないうちにあちこちで残した痕跡からある種のパターンを見抜くのである。だから、ライフログされあれば、サンプリングで構わない。
重要なのは、これまでアンケートとかせいぜいレジでのPOS管理システムくらいでしかとれなかったデータが、ライフログとしてかなり細かいところまでとれるようになったからだ。最近はさらに、携帯電話やスマホに仕込まれているGPSデータを使って、移動パターンまで採取しているようで、大きなお世話もいいところである。
というわけで、トムクルーズ主演の映画「マイノリティレポート」みたいなことがほんとうに現実化しつつある昨今で、個人的には辟易気味なのだが、統計というビジネス分野がトレンドなのは間違いないだろう。とはいいながら、統計そのものは完全競争産業に近いところもあって、だから小さなプロダクションみたいな会社にどんどん外注されていくわけで、コールセンター業務みたいに、そのうち中国やインドの企業とかに丸投げされてしまいそうな予感もある(もうされている?)。
そんなわけで僕は統計というものは実に野暮で無粋なイメージ(トラウマともいう)があるのだけれど、ゆいいつ面白いなと思ったのは、本書でも紹介されているテキストマイニングである。
これは、文章の書かれ方や頻出する単語の特徴をつかまえて、なんらかの傾向を読みとるもので、自由回答記入のアンケートとか、コールセンターの問い合わせ内容とかを分析する際に用いるのだけれど、計量文献学的な世界では急にミステリー小説の謎解きみたいなカタルシスが出てくる。
本書では、シェークスピアとベーコンの文章の書かれ方の相違をみてこの2人が別人であることを示すエピソードが出ているが(この2人は同一人物という説がある)、僕が見聞きしたのは、源氏物語の五十四帖をしらべてみると、いくつかのグループができあがり、別人か、あるいは相当の年月の隔離があって書かれ、それが必ずしも五十四帖通りの時系列にならない、という話だったり、宮沢賢治の小説に出てくる色彩語の頻出パターンから、彼の色彩空間感覚を再現してみると意外にも白色系統が多いという試みだったりする。こういうのは“知の探究”のようで楽しい。
ようするに僕は統計がキライなのではなく、統計で武装してビジネスをやりぬいていこうという気概が無い、つまりそもそも仕事が好きでないというだらしのない結論になってしまった。
人は原子、世界は物理法則で動く-社会物理学で読み解く人間行動…著:マーク・ブキャナン 訳:阪本 芳久
「物理学」というよりは「生態学」といったほうがよいかもしれない。「生態」の力学は競争と協調のメカニズムがあり、その振る舞いを規定するプログラムやパラメータは、あらかじめきっちりと与えられているよりは、自分の経験と学習で規定されているという「自己組織化」で仕込まれている。
自己組織化というのは、数式で表すと「 f(z)=z^2+c 」というやつで、要するに、ひとつ手前の環境条件に対してどのような振る舞いをするか、という規定をしておく、ということだ。こうしておくと、それによって引き起こされた結果に対し、今度はそのときの環境条件で次の振る舞いも規定されていき、その結果が、さらにその次のふるまいを規定していく、という風に無目的に事態が進んでいく。
つまり、15年くらい前に流行ったライフゲームや複雑系やフラクタルやカオスあたりの話なのであるが、この世界観が、「予測不能」とされたリーマンショック以降のブラックスワン状態において、再び装いも新たに出てきたという感じだ。そういった自己組織化の観点を組み入れることによって、この「100年の1度の危機」も十分に想定の範囲内であったことを指摘している。
そこでのキーワードは「べき分布」というやつだ。相対する言葉は「正規分布」である。
「正規分布」というのは、これまで長く信じられた確率分布(釣鐘型分布)で、コインをN回投げたとき、表がM回出る確率というやつで、Nの回数を10000回、20000回と増やしていくと、ほぼ誰がいつどこでやってもズルしない限り同じような分布になる、というやつ。説明するとかえってややこしいが、直感的な世の中の確率分布はそんなもんだろう。
で、世の中の確率予想のものさしとして非常に重宝されたわけだが、1つだけ重要な見落としがあった。それは、コインそのものにまったく意思がない、ということだ。コインが、さっきは「表」だったから今度は「裏」を出してやろう、とか、さっきも「表」だったから、今度も「表」でいこう、なんて意思を働かせない。
だが、ここで「生存(勝ち残る)」という概念をいれたらどうなるか。1枚のコインを10000回投げるのではなく、10000枚用意して、その中でコイン達の生存競争が働いているとする。時と場合によって異なるが、「さっきもAだったから今回もA」、あるいは「アイツはAだったから、オレはB」という意思が働くのである。つまり、1つ手前の状況が次に何を繰り出すか、に影響を与える。「自己組織化」である。要するにフィードバックが働くのである。
で、実は現実の世界で確率予測をたてるとき、予想の対象、それは金融でも自然でも、たいていにおいて「生存」の意思が働いていて、行動パターンに自己組織化が働き、素直に「正規分布」にならないのである。
この「生存」の意思というのが非常に巧みで、「生存」するためには他者を出し抜かなくてはならない。他者を利用したり、場合によっては他者を蹴落とす。つまり、「自分と他者との相対的な位置関係」こそが重要といった、駆け引きの力学みたいなものが「正規分布」には反映されない。「べき分布」はそこを補正している。
ではどういう風に分布になるかというと、それこそが「べき分布」で、「正規分布」に比べると、末広がり型になる。もう少しいうと、「正規分布」では滅多に起こらない、とされる事象が、「べき分布」では、それなりに起こり、頻繁に起こるとされる事象が、そこまで頻繁でもない、という具合になる。「100年に1度」が「30年に1度」くらいのものになる。
本書では、この「べき分布」に代表される「自己組織化」が、たとえば「金持ちのところにお金はますます集まり、貧乏なところからお金はますます逃げていく」といったネットワーク理論的な指摘、あるいは同一グループ内での利他的行為と、他グループへの排他的行為の相互増幅が、ジェノサイド発生の力学の説明に耐えうるものとして引用される。
むしろ定理とでもよんだほうがいい法則だから、本書の通りだとすれば、それに抗うことは100%不可能ということになる。せいぜい、社会はこういった生態学的な事態の変容の上に成り立っていることをまず前提としてとらえ、それに対処する方法として、直感以上に、高いと思われる確率は低く、低いと思われる確率は高く見積もり、事態は急転する(相転移)、というリスクを持つということだろうか。
社会の捉え方のトレンドは、このような単純な法則性に帰結させることと、所詮すべては認識の世界なのだ、という脱構造に向かうものと両翼あるようだ。