推理小説

( ゜д゜) 心臓がどきどき

びっくんびっくん動いてこその命っ!

先週末ちろっと新幹線に乗って移動をしました。そのときに暇つぶしのために小説を読んだわけです。

雪本さん,推理小説がそれなりに好きなのです(といっても読書量はたいしたことがないですが)。
んで,hayashi-daさんが紹介されていたこれ

> 前作「扉は閉ざされたまま」は,今年のベスト級の傑作でしたが,

を見て,「ふむん」と思って,本屋にGO!

グループ討論というか,実質的には,犯人と探偵役の攻防(この二人が,ほかの人の意見を誘導)というものですが,なかなか面白かったです。

hayashi-daさんっ! 紹介どうもありがとございました。

(´-`).。oO(かなり私信)
コメント ( 2 ) | Trackback ( 0 )

公開相談(with hayashi-daさん)

( ゜д゜) 続々登場っ!

四人目の相談者はhayashi-daさん。クロス集計表の分析についてですね。
クロス表分析といっても,その表が2×2なのか,2×NあるいはM×2行なのか,はたまたM×Nなのかによって,使える分析手法が違います。

(ピアソンの)χ2検定は,幸い,一般的なM×N表であっても使える手法なのですが,残差分析は2×2表に対しては使わない手法なのです。というより,使っても有益な情報が得られなのです。

どうしてかというと,2×2表に残差分析を行うと,標準化残差は,4つのセルのどれもが同じ値になってしまうからです(計算上そうなってしまいます)。ゆえに,残差分析は2×2以外の表に対して使うことになります。

それでは2×2表の分析の場合,どのように考えればよいのでしょうか?
分散分析などを始めとする統計手法の思想を思い出して下さい。「最初に全体を分析,有意であれば,その後,部分を詳細に分析」という思想です。
残差分析も基本的には,「部分の詳細分析」に相当する統計手法なので,まずは全体の分析=χ2検定の結果を参考にすることになります。

今回のデータであれば「χ2(1)=4.31, p<0.05(p=0.04)」となり有意であることが分かります。ここで,思い出して下さい。χ2検定とは何を調べる分析法なのでしょうか? χ2検定とは「行(あるいは列)によって列カテゴリ(あるいは行カテゴリ)の発生比」に差があるかどうかを調べる分析法なわけです。
もう少し具体的に言えば,

 M1の場合 N1:N2=18:7
 M2の場合 N1:N2=27:2
 この,M1のN1:N2と,M2のN1:N2とは同じ比だと考えても良いかどうか?

 あるいは

 N1の場合 M1:M2=18:27
 N2の場合 M1:M2=2:7
 この,N1のM1:M2と,N2のM1:M2とは同じ比だと考えても良いかどうか? 

ということを調べているわけです。

これが有意であったということは……? そう,「比は異なる」という結果が導かれるわけです。
今回は,カテゴリが2つなので,比とは,比率になります。ようするに,二つの比率に差があるかどうか,調べていることになります。そして,χ2検定の結果,二つの比率に差があるよ,ということがわかりました。

……これ以上知りたいことは何でしょうか? ひとまず比率の差に注目した場合,これで結論が出ているので,修了することになります。
ちょうど,分散分析における多重比較法にて,2水準データに分散分析した後に,有意だからと言って,多重比較法をしても意味がないのと,今回の事態はある意味で似ています。

別の分析法を使う場合には,「その分析法を使って,何を調べることを目的とするのか」によって,必要ならば,新しい分析を行うかもしれませんが(その場合,何を調べたいのかを明確にする必要があります)。

コメント ( 1 ) | Trackback ( 0 )

二人は別人

( ゜д゜) 何でこんなことを力説しているんだろう……

ははーん。Dickyさんはネタを振っているわけですな(にやそ

しかし,このブログの閲覧者の皆様が誤解されると大変ですので,きっぱりととどめを刺しておきましょう。

現在,京都に出張に行かれているFujiki先生と,「雪本の中の人」は別人です。

脳内会話ではなく,通常の会話もできます。つか,ほぼ毎日してます。
やろうと思えば,「カエルの歌」の輪唱もできます。
握手もできます。やる気はありませんが,肩車をすることもできます。
一緒に机や椅子を協力して運んだことがあります。

そもそも,私と,先生とは研究・教育スタンスが異なりますので,これで実は同一人物なのですさー,とか言われたら,困りものです。

別人扱いにしとかなければならない,とかいのではなく,正真正銘,異なった肉体を持つ二人です。

ブログ読者の皆様,おわかりいただけたでしょうか?
コメント ( 7 ) | Trackback ( 0 )

クラスター分析

( ゜д゜) まとめちゃうのよ?

クラスター分析に関する相談を受ける中でのbobさんからのコメントを読み。

昨今,データマイニングと呼ばれる分析思想及び方法論が普及しています。
これは,それまでの,既存のモデルに収集データが合致しているかどうかを調べる検定法中心の推測統計学に対する反動の一つです。
反動の流れとしては,一つは,自分でモデルを構築しようというもので,この思想に基づくものとして,共分散構造分析や一般化線型モデル(混合モデルを含む)などがあります。
もう一つの反動として登場したのが,データマイニングです。あまりにも多くのデータが集まりすぎたため,検定という行為に意味が無くなってしまった……そこで,検定を行うのではなく,データを記述することに専念しよう,という発想です(多分)。クラスター分析は,このデータマイニングの思想と合致しております。

(´-`).。oO(異なる分析思想なので,同じ多変量解析に分類されていても
       クラスター分析は異質だったのさ)

そんなデータマイニングの思想に基づくクラスター分析でも,「やはり検定を行ってみたい」という願いがあり,その願いに応えて「いくらのクラスターにすればよいか?」などを調べる基準が開発されたわけですね。

Rなんかではそのような基準がたくさんあるようで……
僕個人が知っているのは,「疑似F値(pseudo F)」というものです。その別名が「calinski」であることは初耳ですよ。

ところで,これはどうやって描いたんでしょうか? ペイント?
コメント ( 1 ) | Trackback ( 0 )

公開相談(with Dickyさん):クラスター分析の基礎知識

( ゜д゜) 三人目にして,おもしろい相談者が来ましたよ?

Dickyさんからのメルマガ「独学をすスめ 統計的研究法編」の過分な感想をいただきまして,雪本大変嬉しく思います(つか,照れる)。その後に,「クラスター分析の解説を行っていない」というお言葉で,「ずどーん」と衝撃を受けてしまいましたが(笑

落差をねらった攻撃,なかなか上手いですよ?(笑

さてはて,相談内容を見てみましょう。

> 前置きが長くなり申し訳ございません。
> で、質問なのですが、クラスター分析を行った結果(もちろん、雪本様の素晴らしい
> ツールを使わせて頂いております)の記載の仕方を教えて頂きたくお願い致します。
> デンドログラムをレポートの中に盛り込みたいのですが、図だけではなく、クラスター分析の
> 結果の「ステップ」、「平方距離」、「距離」、「融合クラスター」のデータを併記する
> 必要があるように思うのですが、いかがでしょうか。
> また、このデータの見方も教えて頂けると助かります。

まず最初にクラスター分析についての基礎知識。
クラスター分析と一言で言っても,実はいろいろな種類があります。大雑把に分けると,「階層的クラスター分析:デンドログラムを描くタイプ」と「非階層的クラスター分析:クラスター数を指定して,コンピュータにクラスターを強制的に作らせるタイプ」に大別できるでしょう。「統計tool+ct」で実行できるのは前者の階層的クラスター分析です。

階層的クラスター分析の場合の一番の特徴は「デンドログラム(樹形図)」です。これにつきます。この樹形図を描くために,

> 結果の「ステップ」、「平方距離」、「距離」、「融合クラスター」のデータ

が必要になるわけであり,要するに,樹形図があるならば,わざわざ「ステップ」などの情報はいりません。もう一度繰り返しますが,これらの情報は樹形図を描くための情報であり,樹形図からこれらの情報を読み取ることができます。

<クラスター分析問題>
 日本国内の五つの都市(A市,B市,C市,D市,E市)が,それぞれがどの程度似ているかを調べたい.都市の特徴のうち,「X1:歴史の古さ」「X2:寺院の多さ」「X3:自然の多さ」に特に注目した.
   ―――――――――――――――――
         X1  X2  X3 
   ―――――――――――――――――
    A市【1】 8   9   8
    B市【2】 3   5  10
    C市【3】 2   3  12
    D市【4】 4   7  15
    E市【5】 6   1  10
   ―――――――――――――――――

このデータをクラスター分析にかけてみましょう。

■クラスター分析の結果(ウォード法)
			
 ――――――――――――――――――――――――
  ステップ 平方距離  距離  融合クラスター
 ――――――――――――――――――――――――
    1    9.00   3.00    2  3
    2   29.67   5.45    2  5
    3   52.33   7.23    2  4
    4   91.40   9.56    1  2
 ――――――――――――――――――――――――

この情報を元に,樹形図を描きます。樹形図を描く場合には,「①どのクラスター同士がどのような順番で結合していくのか,②どのぐらい素早く結合していくのか」が重要となります。①は「融合クラスター」の情報を,②は「平方距離」あるいは「距離」の情報を使います。ここでは,②は「平方距離」を使うことにします(特別どちらでなければいけないというものではありません)。

最初に結合するのは(ステップ1),【2】と【3】,すなわち【B市】と【C市】となります。平方距離は「9.00」ですね(最終的に「91.40」で全てが結合することを考えると,10%の距離?で結合,比較的早い段階で結合していることになります)。
次に(ステップ2),【2】(及び【3】,すなわち【2&3】クラスター)に【5】,【E市】が結合することになります。平方距離は「29.67」ですね。こうして【2&3&5】クラスターができあがりました。

……もうおわかりですね? このように,「平方距離」と「融合クラスター」の情報をもっと分かり易く表示したものが,デンドログラム(樹形図)なのです。樹形図の作成法を知っていれば,逆に「平方距離」「融合クラスター」の情報も簡単に読み取れますね?

まとめたものが下図です。
 ―――――――――― クラスター分析の重要結果 ―――――――――
     0 10 20 30 40 50 60 70 80 90
     └――┴――┴――┴――┴――┴――┴――┴――┴――┴
  【A市】──────────────────────────┐
  【B市】──┐                       │
        ├─────┐                 │
  【C市】──┘     ├──────┐          │
  【E市】────────┘      ├──────────┘
  【D市】───────────────┘
 ―――――――――――――――――――――――――――――――――
 ※デンドログラムは平方距離に基づいています



結論としては,「(平方)距離」や「融合クラスター」の情報は不必要となります。
コメント ( 6 ) | Trackback ( 0 )

必殺技

( ゜д゜) ただし実際に殺される技であることはあまりない

ここの「05.10.22 (sat)」部分を読んで。

やっぱり「統計教育の雪本さん」ですかね?
コメント ( 0 ) | Trackback ( 0 )

一般線形モデルについて

( ゜д゜) たくさんあるある

高度な分散分析法を整理してみての図式的理解
修正をするかもしれないので,そのつもりで参考にして下さい。

なお,多少,雪本流の用語を使っていたりするのでその辺も注意。
重要な点は,多分,次の点。

「一般」と「一般化」は全く異なる。線形モデルは正式には一般線形モデルと呼ぶそうだが,その拡張版である「一般化一般線形モデル」では語呂が悪いので,「一般」を省略して,「一般化線形モデル」とする。


          線形モデルの整理図
 ~「固定/変動」+「正規分布/指数分布族」の観点から~
────────────────────────────

  固定 ────────────→ 変動

 ┌───────────────────┐
 │┌──── 線形混合モデル ────┐│  誤差
 ││┌──────────┐     ││  ∥
 │││┌────────┐│┌───┐││ 正規分布
 ││││┌──────┐│││   │││
 │││││球面性ANOVA ││││重回帰│││  │
 ││││└──────┘│││分 析│││  │
 ││││  GMANOVA   │││   │││  │
 ││││            │││   │││  │
 │││└ 線形固定モデル ┘│└ 変動 ┘││  ↓
 │└┼──────────┼─────┘│
 │ │          │      │  誤差
 │ │          │      │  ∥
 │ └ 一般化線形モデル ┘      │指数分布族
 └──── 一般化線形混合モデル ────┘

────────────────────────────


忘れないうちにメモメモ。

やっぱり「一般」と「一般化」についての記述に混乱が見られます。
「GLM」という略語が,ある場面では「general linear model(一般線形モデル)」であったり,ある場面では「generalized linear model(一般化線形モデル)」であったりします。
同じGLMであっても,どちらの意味で使われているか注意しなければなりません。
統計学事典によると,GLMは一般化線形モデルとして説明されていました。

追伸

(´-`).。oO(関係のなさそうなTBは問答無用で消します)
コメント ( 0 ) | Trackback ( 0 )

役割

( ゜д゜) 意味不明なことだって呟きたい!

役割というのは大事だという主張をしたいわけです。

例1)

何かの研究会を立ち上げ,その運営に関わるというのは大変です。
私自身も研究会というほど大げさな物ではありませんが,何かの勉強会をちらほらと立ち上げたことがあります。

トラックバックしているhayashi-daさんと,この類の話をしたのです。
結論らしきものは「役割って大事だようなー」ということになりました。

例2)

現代事情を語るとき「萌え」という現象を無視することはできません(断言
萌えとは,ある対象に対するフレーム的アプローチによる満足である,というのは,雪本さんの勝手な定義です(謎
要するに,○○萌えー,というのは,「○○というのは△△というシンボルの観点で把握することができるぞ,かなりイイ感じに△△のイメージ・シンボルに合致しているぞ」という満足感であると思っています。

これも「役割」ということです(強引

例えば「うなー」という語尾では,一体何をシンボル化したいのかがわかりません。その点「にゃー」であれば一目瞭然。お猫様です。

(間)

結論?
すなわち猫的語尾の役割を果たすために,「にゃー」をすべきであったわけですが,「うなー」という間違っていないけどわかりにくい言葉に役割を付与してしまった点が間違いだったのです。

(´-`).。oO(今回の投稿は深く考えちゃいけません)
コメント ( 0 ) | Trackback ( 0 )

はっぴょう

( ゜д゜) 微妙にテンポが悪かったかな?

今日,とある研究会で多重比較法の発表をした雪本さん。
一度聞いている人にはかなりの重複があったため,退屈だったと思います……

(T_T)ごめん,ごめんよぅ

ともあれ,多重比較法についてはかなりの程度「教授の仕方」のパターンができあがったと思います。

発表の機会をいただけて,大変感謝しております。
コメント ( 0 ) | Trackback ( 0 )

公開相談(with Naitoさん)

( ゜д゜) 二人目の相談者ですよ?

You're Welcom!

> 統計初心者です。カイ2乗の下位検定の方法を調べはじめて2時間、
> ネットを彷徨っているうちに、このブログにたどり着きました。
> Bonferroni法やHolm法はクロス集計表の多重検定でも使用してよいのでしょうか?
> 唐突ですいませんが教えていただけると幸いです。

さすらいのNaitoさんの相談事項は上記のものでよろしいですね?

結論としては「使えます」!

雪本的に言えば,多重比較法は三種類に分類できます。
Scheffe法を代表とする統計量調整型多重比較法,Tukey法を代表とする分布調整型多重比較法,Bonferroni法を代表とする有意水準調整型多重比較法です。

同じ多重比較法であっても性質が異なるわけですが,汎用性が高いものが有意水準調整型多重比較法なのです。
「同時に比較を行う」というのであれば,その統計量が平均値であれ,あるいはχ2値であれ,あるいは相関係数であれ,何でもござれで処理してくれるのが有意水準調整型多重比較法です。何故そこまで汎用性が高いかというと,統計解析法の多くが最終的に「確率」の数値を導くからです。平均値の差の検定をt検定などで行った場合,最終的に「p(確率)」は○○と算出されますよね? χ2検定も同じですよね? だからこそ,確率を直接いじる有意水準調整型多重比較法はすごいわけです。
コメント ( 3 ) | Trackback ( 0 )

効果的な統計学習・教授法とは?

( ゜д゜) 日本人は醤油味

今週末に,私的な研究会でちろっと発表をすることになっております。
その研究会の趣旨からすると,正直相応しくないテーマだと思うのですが,発表の機会を与えて下さったので,自分なりに精一杯やりたいと思います。

テーマは「効果的な統計法の教授・学習についての考察」みたいなものです。
僕のホームページやブログを見ている人にとっては「バカの一つ覚えみたいに…」と思われるかもしれませんが。すみません。

( ゜д゜) 雪本はまだまだ統計法というものが好きなのです。

最近は,量的分析法としての統計法だけではなく,それと対比されることが多い「質的分析法」についても関心を広げつつあります。
KJ法やグラウンデッド・セオリーなど比較的体系化されたものであっても,なかなか難しいです。

分析法を学習するという場合,雪本流には,三つのポイントに注意する必要があります。

①分析法そのものの知識・使い方
②分析法全般の中での位置づけ(他の分析法と比べての共通点・相違点について)
③その分析法が適用できるまでのデータの加工法

一般に統計解析法などの量的分析法を学習するといった場合,①の観点に力点を置かれ過ぎている気がします。よく「統計ソフトで○○という分析法は使えるようになった。どんな時に使えばいいかある程度わかる」といったレベルの人が,発展的な勉強を行う場合の多くは,②や③のポイントを勉強しようとするのではなく,①の深化,すなわち数学的な理解に【のみ】こだわってしまうことです。

決して,数学的理解をすることは悪くありませんが,実践的に統計法を使うという場合は①・②・③を全般的に勉強しなければなりません。①をどれだけ深化して学習しようとも,②や③の知識が不足していたのでは,統計法の実務家としては優秀とは言えないのです。

……とまあ,こんな話を下敷きにして,多重比較法を題材にして統計学習・教授法について少しばかり語っちゃおうと思っているわけです。

(´-`).。oO(やっぱり自分は「教える」という行為が好きなことを実感します)

コメント ( 2 ) | Trackback ( 0 )

名義尺度データは「対応あり」に弱い

( ゜д゜) 後期が始まっての一週間

やはり,日常業務が増えてくるなぁ……

それはそれとしての「拡張マクニマー検定」についてです。
統計toolシリーズのどれに組み込もうかと悩んだのは先日ですが,選択肢としては,以下のもの。

①統計tool
②+分散分析tool
③クロス表分析tool(未公開)

まあ,「+分散分析tool」に組み込むのは普通なので,現在組み込み作業中です。どの部分に組み込むかというと,「二水準の検定法」(名前うろ覚え)の部分です。

※マクニマー検定とは,従属変数が「名義尺度【2】カテゴリ」の場合の【二】水準の有意差の分析法です。そして拡張マクニマー検定とは「名義尺度が【2以上】カテゴリ」の【二】水準の有意差の分析法です。従属変数のカテゴリ数は増えますが,二水準の有意差検定である点は変わりません。

クロス表分析にも組み込む予定です。

しかし,基本形である「統計tool」には組み込まない方針です。質的データ分析法は「対応ありデータの分析法が不十分」であるという現実があります。なので,安易に基本形に組み込んでしまうと「なーんだっ! 名義尺度データでも「対応あり」も普通に分析できちゃうんだ。だったら,名義尺度とか間隔尺度とかにこだわらずにデータ収集をしちゃえ」などと思いこまれるととんでもないことになります。

名義尺度データの分析法は「対応あり」には弱いっ!

この現実を認識する必要があります。
というわけで。「統計tool」には組み込まない予定なのですな。
コメント ( 0 ) | Trackback ( 0 )

拡張マクニマー検定

( ゜д゜) まにまに~

拡張マクニマー検定を勉強しました。
感想は,「まさにマクニマー検定の拡張版だ!」と思いました。

さて,これをどの統計toolシリーズに組み込もうかな?
コメント ( 1 ) | Trackback ( 0 )

種々の割合データの統計法の関連性

( ゜д゜) 愛と憎しみと割合と(謎w

うん.次回の大学紀要ネタですが,名義尺度版の「多重比較」に限定するのではなく,もう少し広く,多重比較を含めて「差異の検定法」について触れること決めました.

少なくとも現在の構想では.

今のところ「逆正弦変換法によるχ2分散分析」を勉強していますが,これとχ2検定や,0/1値データの分散分析と,何が違うのか,その関連性について考えてみたいと思います.

以前から心がけていることですが,今の統計教育は,個別の統計法の説明はするのですが,その他の統計法との関連性あまり意識化しません.

そのため「割合データを与えられたときに,χ2検定をすればよいのか,逆正弦変換法のχ2分散分析をすればよいのか,あるいは0/1データの分散分析をすればよいのか? どんなときにそれを使い分けるようにすべきなのかの『使用上の注意』が分からない」と悩んでしまうでしょう.

とりあえず,これら三種類の統計法の関係性について調べてみることにします.そして,その関連性をどのように学習者に教授すればよいか,その方法を考えることにしましょう.
コメント ( 0 ) | Trackback ( 0 )