まったり アイマス2

アイドルマスター2 超ライトユーザーのプレイ日記

2430. 統計と確率

2018年07月16日 | 日記

 高校の数学の授業で重点の一つになるらしいです。もううろ覚えですが、私も高校か中学校かで少し習った気がします。大学は生物系なので最初のところだけ授業がありました。
 ということで、今は直接の顧客相手の仕事ですが、以前はシステム周りの仕事をしていたので、統計学は飯の種の一つだったです。だから、以下の文章、硬くなりそうです。申し訳ないです。

 統計学は不確実性のある事象を取り扱うことが出来る唯一の数学なので、重要性は認識できるものの、世間的にはかなり眉唾な学問との印象があると思います。
 実際、会議で統計学に強い人や統計学者が発言すると、たいてい紛糾してしまって結論が出なくなります。いちゃもん付ける割には、じゃあどうしたらよいのかを聞いても曖昧にしか思えない返事が来るのが定番です。さらに、まだ一人だけだったら説教受けるだけで済みますが、複数いると統計学者同士でけんかになります。周囲は置いてけぼり。

 簡単に分類すると、平均と標準偏差、つまり記述統計。実験結果を判断する推計統計学(推定と検定)。そして未来を占うベイズの定理、の3つを知っていれば十分です。詳しい人から突っ込みを受けそうですが、とりあえず私の解釈と思ってください。

 平均値(代表値の一つ)と標準偏差(ばらつきの指標)は最初に出てきて、しかし突っ込んだ話になると結構ややこしくなります。私はややこしくなった場合は、平均は一次のモーメント、標準偏差は二次のモーメント、という呪文のような言葉を思い出すことにしています。

 検定と推定は普通の統計学のハイライトなので、詳しい説明があると思います。仮説検定のp値が肝。ややこしく感じるのは背理法に似ている議論になるところで、ここを突破すると割合と素直な感じ。
 α(アルファ)値とβ(ベータ)値、という用語があって、私の恩師の一人によると、慌てて言い過ぎ(α)、ぼーっと見過ごし(β)と覚えると良いそうです。


 ベイズの定理は、事前確率というのがあって、何か新しい手がかりがあると、それによって事後確率が計算できる、という主張です。ええ、かなり思想的な話になってくるので、数学というよりは工学的(技巧)な感じになります。
 初期の人工知能に診断システムがあって、代表的な2システムがベイズの定理を使っていて、説明しやすいので紹介します。

 事前確率とは有病率に相当します。とある人口集団で、ある病気(インフルエンザなど)にその時点でかかっている人の割合です。ここで、手がかりとしてある症状があるかないかを質問します。答えが「はい」なら陽性尤度比(ゆうどひ)、「いいえ」なら陰性尤度比というのをオッズ(賭(か)け率: 確率÷( 1-確率 ))に換算した事前確率に掛けるとオッズに換算した事後確率が出てくる、ということ。手がかりが得られなければ、事後確率=事前確率です。事後確率が高ければ、その病気っぽい、となります。
 病気であっても症状が出る人と出ない人がいます。病気があって症状が出る割合が感度(se)、病気が無くて症状が出ない割合が特異度(sp)。陽性尤度比(se÷( 1-sp))も陰性尤度比(( 1-se)÷sp)も感度特異度の両方から計算できます。感度の方は普通の調査で出せるとして、特異度を得るのはなかなか大変です。なので、人工知能では便法を取ったりすることがあって、でも精度は落ちます。

 結論がその病気であるかないかの二択なのが注意点です。80%の確率で病気です、と言われたところで、じゃあどうするかは当事者の判断に委ねられます。
 以上の話し方だとベイズの定理は若干、怪しい数学と思えた方がおられると思います。しかし、上記の数式から派生するロジスティック曲線(双曲線正接関数: tanh)は普通に機械的判定や判別に使用されます。要は使い方です。

コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする