公開相談(with Naitoさん 2)

( ゜д゜) おひさしー

> 大変すいませんが、ヒントいただけるとありがたいです。
> ちなみに変数同士でカイ2乗で検定するとP

うぉーいっ! 途中で文が途切れてるっ!(笑

> 悩める初学者の頭を整理し、明快な指針を示してくださるブログ
> いつも感動しながら拝見しております。
> またまた質問をさせてください。

雪本流の統計解析法の知識を洗脳しているブログはここですよ?(笑

ネタに溢れた再登場の仕方をして下さったNaitoさん。
今回の質問は,なかなか悩んでしまいましたよ。

今回はロジスティック回帰分析に関する質問ですね。
重回帰分析を勉強されている方からすれば,ロジスティック回帰分析とは「(原因)量的変数→(結果)0~1範囲の確率値」という特殊な回帰分析という説明法が分かりやすいのではないでしょうか? 「0~1範囲の確率値」に限定をしているため適用範囲は狭くなりますが,その分,強みもあります。
心理学などでは,多くの場合「0~1範囲の確率値」というのを「0/1の2値カテゴリ」として活用しています。それは一つの考え方なので別に問題はないと思います。

さて,重回帰分析では,(原因)に相当する説明変数・独立変数の間に関連性があってはいけないという「多重共線性」の問題がありました。この問題は,重回帰分析の特殊形であるロジスティック回帰分析,その他の予測系の多変量解析(判別分析,数量化理論一類,二類など)でも考慮すべきものです。

多重共線性とは何でしょうか?
回帰分析などの予測・説明系の多変量解析は,結果の目的変数を原因の説明変数を使って説明しようという手法のことですね。
yが情報量100を持つとします。x1の観点からはその内の「40」を知る(予測する)ことができます。x2の観点からは「35」を知ることができます。残りの「25」は分からないものとします。多重共線性とは,ここでいうx1の「40」とx2の「35」の情報は重複していない,していると問題が起きるということです。情報量とは統計学では「分散」のことになりますので,x1とx2の重複する情報=共に重なっている分散=共分散が「0」になることが期待されるわけですね。ちなみに共分散の変形が相関係数です。

要するに,多重共線性を考える場合,それが重回帰分析であれ,ロジスティック回帰分析であれ,その他の多変量解析であれ,「分散の重複度」に注目すればよいわけです。そして代表的な分散の重複度が共分散であり,その共分散を標準化したものが相関係数なのです。

Θ・)ノ「ロジット回帰分析でも変数間の関連性は相関係数を参考にしていいよ」

参考までに,重回帰分析とロジット回帰分析の計算式を紹介します。

○重回帰分析の計算式
 y=a1x1+a2x2+…+apxp+b
  =z

○ロジスティック回帰分析の計算式
          1
 y=──────────────────
    1+e^[-(a1x1+a2x2+…+apxp+b)

      1
 y=──────
    1+e^(-z)

 ※「^」……累乗の記号。例「2^3=8」


ロジット回帰分析は,その式の一部に重回帰分析の計算式を含んでいるのですな。
そういう意味では,ロジット回帰分析の多重共線性を考慮する場合に,重回帰分析の多重共線性への対策を流用するのは,あながち間違いとはいえないのです。

> 順序尺度や名義変数同士の共線性については何を目印にしたらよいのか、
> どうしても情報を見つけられません。

順序尺度,名義尺度という区分ではないですが,上記のことを参考にして下さい。
また,順序尺度,名義尺度間の関連性を見たいのならば,順序尺度版の相関係数である「順位相関係数」や,名義尺度版相関係数である「連関係数」を参考にするのがよいでしょう。
ただし,順序相関係数や連関係数は,当然ながらロジット回帰分析を意識して開発されたものではないので,これらの係数で多重共線性が完璧に診断できるというものではないです。

( ゜д゜) まあ,多重共線性は,実際に式をつくって,
    モデルが適切に解釈できればokなんだがな
コメント ( 1 ) | Trackback ( 0 )

近況

( ゜д゜) おひっこし

最近,来年度の赴任準備でねっとりと忙しい雪本さんです。
特に引っ越し作業が大変。荷物を実際に運び出す一週間前~数日前が一番忙しいと思います(あんまり早めにやっても,部屋内の邪魔になる)。現在は,どんな引っ越し業者さんにするのか,新しい場所の住処はどこにするのか……

Θ・)ノ「わたわた」

また,赴任先では,授業を担当するようになっていますが(無論のこと,心理統計法の授業も担当させていただきますよ。ふふり),その講義要綱を作成したり……

徐々に気持ちが高まってきましたっ!

そんな興奮中の雪本さんは,最近,質的研究法の勉強中です(唐突
コメント ( 0 ) | Trackback ( 0 )

一事例研究の統計分析

( ゜д゜) ちらちら

一事例実験計画の研究法をちらりと流し読み。
この類の分析法は「ベースライン期と介入期の違い」が「視覚的に明らかであるか」を判断基準としている……ということが概論書に多く書かれている説明です。

それはそれでもっともな主張だと思います(もともと一事例研究は反統計分析という性格を持っているので)。しかし,統計分析に惚れ込んでいる雪本さんとしてはちょっと

Θ・)ノ「むぅ」

と思ってしまうわけです。

幸いにも購入した本には,一事例研究における統計分析法の解説(全面的に解説されているというわけではなく,参考・ヒントですが)あるので,これを使って,一事例統計分析も勉強してみようと思っています。
コメント ( 0 ) | Trackback ( 0 )

住まい

( ゜д゜) ひっそりひそひそ

来年度の住居を探しに,東海地方へと行きました。
やっぱり,広島と比べて家賃が高いですっ!

ともあれ,何とか住まいを見つけて契約をきました。
少しずつ実感が湧いてきた今日この頃。

移動中に読む本として,質的研究法の概論書と,一事例研究法の説明書を購入。
コメント ( 0 ) | Trackback ( 0 )

古代の数学

( ゜д゜) 自己メモ

古代の「数学」とは,アリストテレスの学問区分の一つ「理論学」の一分野である。現在の数学とはかなり異なり,ヘロンによると,「幾何学,数論,天文学,和声学,計算術,光学,機械学などを含む数学的諸学科のこと」らしい。

よくカリキュラム論の歴史を見ると,自由七科というものがあるが,そのうちの「幾何学」「算術」「天文学(球面幾何学)」「音楽(和声学;ピタゴラスが音と数との密接な関連性を主張)」の4科がある。これはピタゴラス派が「数学」の原語に相当するものに「学ばるべきもの」という一般的意味を付与したものです。

ちなみにアリストテレスの学問の三区分とは「理論学」「実践学」「制作術」であり,その内の「理論学」は「形而上学」「数学」「自然学」の三分野を持つ。
コメント ( 0 ) | Trackback ( 0 )

カテゴリ分析とシークエンス分析

( ゜д゜) カテゴリ分析とシークエンス分析

とある教科書を参考にすると,質的分析法を大雑把に分類するとカテゴリ分析とシークエンス分析とに分類できるとのこと。この大雑把さは,量的分析法(統計分析法)を「差異の統計法」と「類似の統計法」とに分類する程度のレベルです。

さてさて,有名な質的分析法としてグラウンデッド・セオリー法やらKJ法などがありますが,これはカテゴリ分析に分類されるものです。データを完全に断片化して,本来の流れとは全く無関連に,有用なカテゴリとして再構成するタイプの分析法です。どのようにカテゴリ化するか,どのような特徴を持つカテゴリを形成するかと言う観点でいろいろとバージョンが異なっている……そう考えることができると思います。

これに対して,シークエンス分析とは,データの流れを意識したまま分析を行うというもの……らしいです。残念ながら,こちらの分析法については不勉強なので,自分なりの意見がありません。
コメント ( 0 ) | Trackback ( 0 )

符号付き順位和検定

( ゜д゜) JMP(統計ソフト)の購入申請をしたぞよ

前回の投稿で符号検定の話をしたので,それに関連した話。

雪本的には,順序尺度版対応あり二水準差異検定法を「符号検定」と位置づけています。しかし,統計の教科書にはこの符号検定の他にも,より検定力が高い検定法が紹介されています。それは「符号付き順位和検定」あるいは「T検定」と呼ばれているものです。

しかし,雪本は,検定力が高いにもかかわらず「T検定」を採用せずに,検定力が低い「符号検定」を採用しています。なぜでしょうか?

それは「符号検定」の拡張版として「フリードマン検定」がありますが,「T検定」の拡張版が開発(あるいは普及)されていないからです。
すなわち,純粋に二水準データの分析をしたいのであれば「T検定」が望ましいのですが,「分散分析→多重比較」のように下位検定として使うことを考慮すれば,「符号検定」が望ましいのです。

( ゜д゜) フリードマン検定→(有意水準調整型の)T検定による多重比較はだめ?

…と思われる人もいるかもしれませんが,雪本的にはこれはまずいと考えます。

よく「分散分析では有意であったけど,多重比較法では(どのペアでも)有意ではなかった」と言われるように,分散分析は多重比較法とは結果に食い違いが生じます。この前提になるのは,「分散分析の結果と,多重比較の結果は,なるべく同じになるように,整合性があることが望ましい」という命題でしょう。

しかし,「フリードマン検定」は検定力はほどほど,「T検定」はそれなりに検定力あり,というのでは,整合性のある結果など望むことはできないでしょう?

上記の命題を成立させるという意味から,「フリードマン検定→T検定による多重比較法」は望ましくないと考えるわけです。

(´-`).。oO(ただし,とにかく有意差重視ならば,そのような流れも許容されるかな?
       僕自身は,そのような使い方をしていたら,反論をしますが…)
コメント ( 0 ) | Trackback ( 0 )

符号検定

( ゜д゜) めもめも

先程,同僚と統計に関するおしゃべりをしていましたが,そのときに浮かんだアイデアをちょっとメモります。

符号検定というのは,順序尺度版対応あり差異の検定法と位置づけられます。
ただし,この検定法は,対応あるデータが同値の場合には計算対象から除外されるという問題点があります。

簡単に「0/1」データだとします。二条件の場合であれば,(0,0),(0,1),(1,0),(1,1)の組合せが考えられます。
しかし符号検定の場合は,(0,1)のデータ数と(1,0)のデータ数は計算情報として取り込まれますが,(0,0)と(1,1)情報は採り入れられません。
でも,(0,0)(1,1)が100ペア中90ペアあったとすれば,残りの(0,1)と(1,0)がどんな配分であろうとも,二条件には差がないと考えるのが普通だと思います。しかし,符号検定では,その辺の情報が考慮されません。
この意味するところは,符号検定(を含む多くの検定法)は,同値データを含むデータを計算対象として考えていないということになります。

そこで,ちょっと思いついたアイデアですが,ならば,(0,0)と(1,0)のデータ情報も採り入れてしまったものに修正すればよいのでは? ということです。

 (0,0)……30ペア(30%) (0,1)……30ペア(30%)
 (1,0)……10ペア(10%) (1,1)……20ペア(20%)

 (0,1)及び(1,0)データに限定(40ペア)
 (0,1)……30ペア(75%) (1,0)……10ペア(25%)

通常の符号検定の場合は【75%-25%】の計算を行います。
それを【30%-10%】として計算してしまえ,ということです。なお,それぞれのカテゴリは従属関係にありますので,従属関係を考慮したちょっと特殊な比率計算法を使わなければなりませんが……

※特殊な計算式
http://www.sci.kagoshima-u.ac.jp/~ebsa/asai01/index.html
の(p180)を参照

■追加■

折角なので「特殊な計算式」を書いておきます。
【例題】
     A   B   C   D   計  
 人数  75   55   39   31   200
 比率 0.375 0.275 0.195 0.155 1.000

【計算式】
      Pa-Pb
 u=─────────
     (Pa+Pb)
   √[─────]
       N


例えば,BとCとの比率の差を調べたいという場合は

     0.275-0.195
 u=───────────
     (0.275+0.195)
   √[────────]
        200



という,計算をすればよかですよ。

参考文献)『すぐわかるSPSSによるアンケートの調査・集計・解析 第二版』(p108)
 
コメント ( 0 ) | Trackback ( 0 )