現在【いろいろな意味で余裕があれば】の条件で公開相談を受付中。即効性のある相談にはのれないので注意。
独学のすスめ
分散分析からの計算法
( ゜д゜) とりあえずのアイデア材料
前回,「相関比」「一致係数」「α係数」「級内相関」の4種類の関係を考えようと決意しました。
あれこれと資料を見たところ,これらは分散分析の結果を使って計算することが出来ることがわかりました。
上記データに対して,便宜的に「対応あり分散分析」を実施した結果です。実際には,一要因(対応あり)分散分析ではなく,「繰り返しのない,項目×被験者の二要因分散分析」をしたいのですが,その辺はまあ,あんまり気にするな!
という感じで求めることになります。
さらには,相関比とケンドールの一致係数は順位値データでは同値になることを確認しています。
こんな風に関連があるわけですな。
さあ,ここからが勝負です!
このままでは,数学の言葉でしか関係性を示したことにしかなりません。でも,統計的研究をする上で役立つ言葉で上記の関連性を示すのが,雪本の目標です。
はたして,うまくいくのかな?
まだまだ枠組みは浮かんでいません!(ががーん!
前回,「相関比」「一致係数」「α係数」「級内相関」の4種類の関係を考えようと決意しました。
あれこれと資料を見たところ,これらは分散分析の結果を使って計算することが出来ることがわかりました。
│ 質問項目 │ ──┼───────┼─ │ 1 2 3 4 │ ──┼───────┼─ A │ 3 2 3 2 │ B │ 2 4 3 4 │ C │ 4 5 4 4 │ D │ 2 3 2 2 │ E │ 4 4 3 4 │ F │ 3 3 3 3 │ ──┼───────┼─ ───────────────────── 変動因 SS df MS F ───────────────────── 要因 1.00 3 0.33 1.00 被験者 11.33 5 2.27 6.80 誤差 5.00 15 0.33 ───────────────────── 全体 17.33 23 0.75 ─────────────────────
上記データに対して,便宜的に「対応あり分散分析」を実施した結果です。実際には,一要因(対応あり)分散分析ではなく,「繰り返しのない,項目×被験者の二要因分散分析」をしたいのですが,その辺はまあ,あんまり気にするな!
誤差項MS α=1-──────── 被験者のMS 被験者のMS-誤差項のMS rw=───────────────────── 被験者のMS+(項目数-1)×誤差項のMS
という感じで求めることになります。
さらには,相関比とケンドールの一致係数は順位値データでは同値になることを確認しています。
要因のSS 要因のMS×要因のdf 相関比・一致係数=──────=─────────── 全体のSS 全体のSS
こんな風に関連があるわけですな。
さあ,ここからが勝負です!
このままでは,数学の言葉でしか関係性を示したことにしかなりません。でも,統計的研究をする上で役立つ言葉で上記の関連性を示すのが,雪本の目標です。
はたして,うまくいくのかな?
まだまだ枠組みは浮かんでいません!(ががーん!
コメント ( 0 ) | Trackback ( 0 )
類似統計に対する熱きパトスの発生
( ゜д゜) おーのーれー
以前,類似性統計の話をしていました。
実は類似性統計に関して,「おーのーれー」という感じでめらめらと意欲が湧きつつあるのが,「α係数」「ケンドールの一致係数」「相関比」「級内相関係数」などの関連です。
以前,各種の多重比較法の違いがよくわからないという熱いパトスから,多重比較法を整理する枠組みを考えました。あれと似た種類の意欲を感じているのが,上記の類似性統計法の関連性です。
よく,質問紙研究において,複数の質問項目の内的整合性を調べるときには「α係数」を使いましょうと解説されています。
( ゜д゜)ノ α係数ではなく,級内相関係数ではだめですか?
とふと思ったのです。実際,α係数と級内相関係数は,ある条件を満たせば一致するそうです。
( ゜д゜)ノ α係数ではなく,ケンドールの一致係数ではだめですか?
これはわかりません。しかし,両者とも,回答パターンの一致度を調べるという意味では共通点はあるはずです。
ならば……
上記4種類は,何らかの枠組みを使うことで,統一的に整理できるのではないでしょうか?
…と,雪本さんは思っている所存です。
しかし,正直まだ「枠組み」のアイデアが浮かんできません。
うがー
まあ,数年ぐらい,これを研究テーマの一つとします。
Θ・)ノ「がんばれ! ゆきもとさん」
追伸
少なくとも順位値データの場合(少なくとも同順位がない場合),相関比=ケンドールの一致係数であることを確認しました。やっほーい。
以前,類似性統計の話をしていました。
実は類似性統計に関して,「おーのーれー」という感じでめらめらと意欲が湧きつつあるのが,「α係数」「ケンドールの一致係数」「相関比」「級内相関係数」などの関連です。
以前,各種の多重比較法の違いがよくわからないという熱いパトスから,多重比較法を整理する枠組みを考えました。あれと似た種類の意欲を感じているのが,上記の類似性統計法の関連性です。
よく,質問紙研究において,複数の質問項目の内的整合性を調べるときには「α係数」を使いましょうと解説されています。
( ゜д゜)ノ α係数ではなく,級内相関係数ではだめですか?
とふと思ったのです。実際,α係数と級内相関係数は,ある条件を満たせば一致するそうです。
( ゜д゜)ノ α係数ではなく,ケンドールの一致係数ではだめですか?
これはわかりません。しかし,両者とも,回答パターンの一致度を調べるという意味では共通点はあるはずです。
ならば……
上記4種類は,何らかの枠組みを使うことで,統一的に整理できるのではないでしょうか?
…と,雪本さんは思っている所存です。
しかし,正直まだ「枠組み」のアイデアが浮かんできません。
うがー
まあ,数年ぐらい,これを研究テーマの一つとします。
Θ・)ノ「がんばれ! ゆきもとさん」
追伸
少なくとも順位値データの場合(少なくとも同順位がない場合),相関比=ケンドールの一致係数であることを確認しました。やっほーい。
コメント ( 2 ) | Trackback ( 0 )
名義・順序尺度の類似性について
( ゜д゜) 久々に統計話
昨日夜遅く,心理学事典と統計法の教科書を読みながら考えたよ。
二つの変数の類似性を調べる基本は,そう,ピアソンの相関係数ですね。
これを発展させる形で,他にどのような類似性指標があるか,その解説を試みてみます。
尺度というものが,名義尺度,順序尺度,間隔(/比率)尺度に分類できるのはokですね?
ピアソンの積率相関係数は「間隔×間隔の類似性」です。復習ですね。
では,「順序×順序の類似性」を調べるにはどうすればよいでしょうか?
シンプルに考えましょう。順序というのは順位得点と置き換えることはできます。ならば,「じゃあ,順位得点×順位得点にピアソン相関係数を当てはめればよくねえ?」となりますよね? そう,これが「スピアマンの順位相関係数」です。
同じく順位相関係数として「ケンドールの順位相関係数」がありますが,ちょっと待って下さい。これは発想が違うんです。
続いて,「名義×名義の類似性」を調べることにしましょう。
名義の場合は,その名義尺度が「2カテゴリ/それ以上のカテゴリ(汎用カテ)」かに分類して整理することがポイントです。これによって,大きく「2カテ×2カテ」と「汎カテ×汎カテ」とに分類できます(え? 「2カテ×汎カテ」はどうするか? 「汎カテ×汎カテ」に分類して下さい)。当然ながら,「2カテ×2カテ」の方が基本となりますね。
さてさて,「2カテ×2カテ」のデータ(クロス表)の類似性を求めるにはどうすればよいでしょうか?
シンプルに考えましょう。「2カテなら,カテゴリAを0,カテゴリBを1にして,ピアソン相関係数を当てはめればよくねえ?」となりますよね? そう,これが四分点相関係数(点相関係数)なのですよ。
また,これとは異なる発想の「2カテ×2カテ」の類似性指標も開発されますが,これが「ユールの連関係数」といいます。前者の四分点相関係数がカテゴリ間に基本的に順序性を仮定しないものに対して,ユールの連関係数の系譜はカテゴリ間に順序性を仮定するという特徴があったりします。
いずれにしろ,「2カテ×2カテ」用の指標が用意されました。でも2カテゴリに限定されるのではなく,3カテゴリ以上にも使える汎用性の高いものが欲しいですよね?
そこで,それぞれの指標の汎用化が図られます。四分点相関係数の汎用化が「φ(ファイ)係数」,ユールの連関係数の汎用化が「グッドマン・クラスカルの順序連関係数(ガンマ)」とよばれるものです。
教科書によっては,四分点相関係数がイコールφ係数だと,すなわちφ係数は「2カテ×2カテ」の指標であるという読み取らしてしまう記述がありますが,どうやらこれは間違いです。φ係数は汎用カテゴリに対して使われるものです。恥ずかしながら,雪本もこのような勘違いをしておりました。
ところで,このφ係数なのですが,最小値は「0」,最大値は「(行の数-1)あるいは(列の数-1)のルート値」となっております。つまり,相関係数でおなじみの「0~1」の範囲とはならないのです。しかし,これでは解釈が不便ということで,最大値を「1」におさまるように修正したものが求められました。これが「クラメールの連関係数」と呼びます。一般に名義尺度の類似性は,これが使い勝手が良いためによく使われますね。
このように,カテゴリ変数間の類似性を見るためには,名義カテゴリ間の類似性を調べる「四分点相関係数→φ係数&クラメールの連関係数」の系譜と,順序カテゴリ間の類似性を調べる「ユールの連関係数→グッドマン・クラスカルの順序連関係数」の系譜があるということになります。
ここで,残していた「ケンドールの順位相関係数」を説明します。実は,ケンドールの順位相関係数とは,この順序カテゴリ間の類似性指標である「グッドマン・クラスカルの順序連関係数(ガンマ)」の変形なのです。すなわち,「同順位がない場合」という限定をかけたものが,「ガンマ」なのですな。
昨日夜遅く,心理学事典と統計法の教科書を読みながら考えたよ。
二つの変数の類似性を調べる基本は,そう,ピアソンの相関係数ですね。
これを発展させる形で,他にどのような類似性指標があるか,その解説を試みてみます。
尺度というものが,名義尺度,順序尺度,間隔(/比率)尺度に分類できるのはokですね?
ピアソンの積率相関係数は「間隔×間隔の類似性」です。復習ですね。
では,「順序×順序の類似性」を調べるにはどうすればよいでしょうか?
シンプルに考えましょう。順序というのは順位得点と置き換えることはできます。ならば,「じゃあ,順位得点×順位得点にピアソン相関係数を当てはめればよくねえ?」となりますよね? そう,これが「スピアマンの順位相関係数」です。
同じく順位相関係数として「ケンドールの順位相関係数」がありますが,ちょっと待って下さい。これは発想が違うんです。
続いて,「名義×名義の類似性」を調べることにしましょう。
名義の場合は,その名義尺度が「2カテゴリ/それ以上のカテゴリ(汎用カテ)」かに分類して整理することがポイントです。これによって,大きく「2カテ×2カテ」と「汎カテ×汎カテ」とに分類できます(え? 「2カテ×汎カテ」はどうするか? 「汎カテ×汎カテ」に分類して下さい)。当然ながら,「2カテ×2カテ」の方が基本となりますね。
さてさて,「2カテ×2カテ」のデータ(クロス表)の類似性を求めるにはどうすればよいでしょうか?
シンプルに考えましょう。「2カテなら,カテゴリAを0,カテゴリBを1にして,ピアソン相関係数を当てはめればよくねえ?」となりますよね? そう,これが四分点相関係数(点相関係数)なのですよ。
また,これとは異なる発想の「2カテ×2カテ」の類似性指標も開発されますが,これが「ユールの連関係数」といいます。前者の四分点相関係数がカテゴリ間に基本的に順序性を仮定しないものに対して,ユールの連関係数の系譜はカテゴリ間に順序性を仮定するという特徴があったりします。
いずれにしろ,「2カテ×2カテ」用の指標が用意されました。でも2カテゴリに限定されるのではなく,3カテゴリ以上にも使える汎用性の高いものが欲しいですよね?
そこで,それぞれの指標の汎用化が図られます。四分点相関係数の汎用化が「φ(ファイ)係数」,ユールの連関係数の汎用化が「グッドマン・クラスカルの順序連関係数(ガンマ)」とよばれるものです。
教科書によっては,四分点相関係数がイコールφ係数だと,すなわちφ係数は「2カテ×2カテ」の指標であるという読み取らしてしまう記述がありますが,どうやらこれは間違いです。φ係数は汎用カテゴリに対して使われるものです。恥ずかしながら,雪本もこのような勘違いをしておりました。
ところで,このφ係数なのですが,最小値は「0」,最大値は「(行の数-1)あるいは(列の数-1)のルート値」となっております。つまり,相関係数でおなじみの「0~1」の範囲とはならないのです。しかし,これでは解釈が不便ということで,最大値を「1」におさまるように修正したものが求められました。これが「クラメールの連関係数」と呼びます。一般に名義尺度の類似性は,これが使い勝手が良いためによく使われますね。
このように,カテゴリ変数間の類似性を見るためには,名義カテゴリ間の類似性を調べる「四分点相関係数→φ係数&クラメールの連関係数」の系譜と,順序カテゴリ間の類似性を調べる「ユールの連関係数→グッドマン・クラスカルの順序連関係数」の系譜があるということになります。
ここで,残していた「ケンドールの順位相関係数」を説明します。実は,ケンドールの順位相関係数とは,この順序カテゴリ間の類似性指標である「グッドマン・クラスカルの順序連関係数(ガンマ)」の変形なのです。すなわち,「同順位がない場合」という限定をかけたものが,「ガンマ」なのですな。
コメント ( 0 ) | Trackback ( 0 )
効果量(1)
( ゜д゜) 七月がおーわーる
統計法には"effect size"とよばれる概念があります。一般には「効果量」と訳されるものですが,一般の入門的統計教科書にはあまり解説されていません。
それでは,どんな概念なんでしょうか?
( ゜д゜) … (゜д゜) … (゜д゜ )
雪本さんは,統計教育法を専門としようと頑張っておりますので,どのように教授すればよいかを常々考えております。
( ゜д゜) ……
相関分析とは,相関係数という統計量と,その一般化可能性の有意性統計量の二つから構成されています。さて,相関分析とは,二つの量的変数の類似性を調べる統計手法なわけですから……
□相関係数
どの程度の類似性があるか:類似性の効果に関する統計量=類似性の効果量
□有意性検定(相関係数の無相関検定[有意t検定])
どの程度結果が一般化できるか
このように,類似性の効果を数的に表現したものが「類似性の効果量」です。それぞれの手法によって,効果量の種類は異なるので,上記の場合は「相関係数の効果量」ということになります。
この「効果量/有意性統計量」のセットの枠組みをしっかりと理解して下さい。
( ゜д゜) …… (゜д゜ )
この枠組みを使って,二つの量的変数の有意差を調べる「t検定」というものを見てみましょう。
t検定には,「t値」という統計量,「p値」という確率があります。
そうすると,「t値」が効果量,「p値」が有意性統計量…………と思われるかもしれません。
( ゜д゜) 違うんですっ!
それでは,一体っ!
(´-`).。oO(無駄に続くっ!)
統計法には"effect size"とよばれる概念があります。一般には「効果量」と訳されるものですが,一般の入門的統計教科書にはあまり解説されていません。
それでは,どんな概念なんでしょうか?
( ゜д゜) … (゜д゜) … (゜д゜ )
雪本さんは,統計教育法を専門としようと頑張っておりますので,どのように教授すればよいかを常々考えております。
( ゜д゜) ……
相関分析とは,相関係数という統計量と,その一般化可能性の有意性統計量の二つから構成されています。さて,相関分析とは,二つの量的変数の類似性を調べる統計手法なわけですから……
□相関係数
どの程度の類似性があるか:類似性の効果に関する統計量=類似性の効果量
□有意性検定(相関係数の無相関検定[有意t検定])
どの程度結果が一般化できるか
このように,類似性の効果を数的に表現したものが「類似性の効果量」です。それぞれの手法によって,効果量の種類は異なるので,上記の場合は「相関係数の効果量」ということになります。
この「効果量/有意性統計量」のセットの枠組みをしっかりと理解して下さい。
( ゜д゜) …… (゜д゜ )
この枠組みを使って,二つの量的変数の有意差を調べる「t検定」というものを見てみましょう。
t検定には,「t値」という統計量,「p値」という確率があります。
そうすると,「t値」が効果量,「p値」が有意性統計量…………と思われるかもしれません。
( ゜д゜) 違うんですっ!
それでは,一体っ!
(´-`).。oO(無駄に続くっ!)
コメント ( 0 ) | Trackback ( 0 )
あーる
( ゜д゜) 久々に「R」を触る
曲線美がたまりません(謎
最近SPSSのようなマウスクリック型の統計ソフトしか触れていなかったから,Rのようなコマンド入力型に戸惑いを感じてしまいました。
今回はダウンロードと,「対応なしt検定」を実行。
以前,ちろっと触ったことがあったのですが,はっきり言ってコマンド忘れてやがりますな。
ネットで調べ調べで頑張りました。
SPSSの使用説明書を作ったわけですが,それを修正して「R使用説明書」をちまちまと作っていきたいと思います。
(´-`).。oO(今のところの野望は…)
ブログの本家サイトである「独学をすスめ」の統計ページに「SPSS使用説明書」とかをアップしたいな,できるかな,やめようかな,がんばれ,雪本さんっ! って思っている状態です。
生暖かい目で,期待しないで,見守って下さい。
曲線美がたまりません(謎
最近SPSSのようなマウスクリック型の統計ソフトしか触れていなかったから,Rのようなコマンド入力型に戸惑いを感じてしまいました。
今回はダウンロードと,「対応なしt検定」を実行。
以前,ちろっと触ったことがあったのですが,はっきり言ってコマンド忘れてやがりますな。
ネットで調べ調べで頑張りました。
SPSSの使用説明書を作ったわけですが,それを修正して「R使用説明書」をちまちまと作っていきたいと思います。
(´-`).。oO(今のところの野望は…)
ブログの本家サイトである「独学をすスめ」の統計ページに「SPSS使用説明書」とかをアップしたいな,できるかな,やめようかな,がんばれ,雪本さんっ! って思っている状態です。
生暖かい目で,期待しないで,見守って下さい。
コメント ( 2 ) | Trackback ( 0 )
正準判別分析
( ゜д゜) うりゃあ
ひっそりと活きている雪本さん。ピチピチとはねるイキの良さ……という年ではなくなってしまいましたが,まあ,ほどほどに元気ですよ?
唐突に。
重回帰分析とは,従属変数とのズレが一番小さい,複数の独立変数の組合せによる直線的合成変数をつくることを目的としている……そんな統計手法と言うことができるでしょう。
ようするに,直線を作る手法の一つなんだよ,ということです。
※注意※
【あ】さん,【い】さんのお二人から,以下の「多変量解析は『直線』を基本とする」という説明は「説明変数が一つのとき」のみ適切であり,説明変数が増えると「直線」ではなく「平面」,その拡張版(?)であるらしい「超平面」という概念を使わないと不適切になってしまうそうです。
現在,「超平面」についての十分な理解ができておりませんので,この概念を使って具体的にどのように,記事の文章を修正すればよいのかわかりません。時間に余裕ができたときに,改めて修正を行いたいと思いますので,ひとまず,この注意文章だけを追加しておきました。
説明を読まれる読者の方,その点ご注意下さい。また,御指摘をして下さった【あ】さん,【い】さん,ありがとうございました。
※注意※
因子分析とは,実際に集めた観測データから推測して,その観測データ自身をなるべく少数の効果的な直線で説明できるような,直線的な,潜在的合成変数を作り出すことを目的としています。
やっぱり,直線を作る手法の一つなんだよ,ということです。実は「直線的な」というところで,因子分析には,重回帰分析のアイデアが取り込まれているわけですな。
一方,正準判別分析(SPSSに搭載されている判別分析)とは,グループを判別するための直線を作る手法です。ただし,グループが3つ(A群,B群,C群)あるからといって,(1)A群/B群,(2)A群/C群,(3)B群/C群という3つの直線が作られる……というわけではありません。例えば,「A群とC群の判別ができてもあまり効果的じゃないなぁ」という場合には,A群/C群の判別直線は作られない,そもそも,A群とC群を異なる群という認識はしないのです。大事なのは,「少数の効果的な判別するための境界直線」を作り出す手法,これが正準判別分析です。
ん?
上記の説明文にもう一度注目です。「少数の効果的な」という部分と「直線を作る」…………あれ? これって「因子分析」的な発想,「重回帰分析」的な発想じゃないか?
まあ,重回帰分析は多変量解析の基礎であるため,その他の多変量解析にそのアイデアが盛り込まれているので,これ自身は特別問題はありません。しかし,「小数の効果的な」は因子分析的な発想です。
そう,SPSSにおける正準判別分析とは「固有値」という指標が前面に出てくるため,実は「重回帰分析」と「因子分析」という雪本的多変量解析の二大代表手法の解読法を知っていなければならないわけです。
よく,判別分析は,重回帰分析の改訂版といわれますが,正準判別分析の場合には,重回帰分析だけではなく,因子分析のアイデアが盛り込まれている点に注意する必要があるでしょう(※1)。
このように多くの多変量解析は「直線」という考えがベースになっており,このため,線型的な統計分析だといわれるわけです。
※1 実際には,因子分析ではなく,正準相関分析のアイデアですが。
ひっそりと活きている雪本さん。ピチピチとはねるイキの良さ……という年ではなくなってしまいましたが,まあ,ほどほどに元気ですよ?
唐突に。
重回帰分析とは,従属変数とのズレが一番小さい,複数の独立変数の組合せによる直線的合成変数をつくることを目的としている……そんな統計手法と言うことができるでしょう。
ようするに,直線を作る手法の一つなんだよ,ということです。
※注意※
【あ】さん,【い】さんのお二人から,以下の「多変量解析は『直線』を基本とする」という説明は「説明変数が一つのとき」のみ適切であり,説明変数が増えると「直線」ではなく「平面」,その拡張版(?)であるらしい「超平面」という概念を使わないと不適切になってしまうそうです。
現在,「超平面」についての十分な理解ができておりませんので,この概念を使って具体的にどのように,記事の文章を修正すればよいのかわかりません。時間に余裕ができたときに,改めて修正を行いたいと思いますので,ひとまず,この注意文章だけを追加しておきました。
説明を読まれる読者の方,その点ご注意下さい。また,御指摘をして下さった【あ】さん,【い】さん,ありがとうございました。
※注意※
因子分析とは,実際に集めた観測データから推測して,その観測データ自身をなるべく少数の効果的な直線で説明できるような,直線的な,潜在的合成変数を作り出すことを目的としています。
やっぱり,直線を作る手法の一つなんだよ,ということです。実は「直線的な」というところで,因子分析には,重回帰分析のアイデアが取り込まれているわけですな。
一方,正準判別分析(SPSSに搭載されている判別分析)とは,グループを判別するための直線を作る手法です。ただし,グループが3つ(A群,B群,C群)あるからといって,(1)A群/B群,(2)A群/C群,(3)B群/C群という3つの直線が作られる……というわけではありません。例えば,「A群とC群の判別ができてもあまり効果的じゃないなぁ」という場合には,A群/C群の判別直線は作られない,そもそも,A群とC群を異なる群という認識はしないのです。大事なのは,「少数の効果的な判別するための境界直線」を作り出す手法,これが正準判別分析です。
ん?
上記の説明文にもう一度注目です。「少数の効果的な」という部分と「直線を作る」…………あれ? これって「因子分析」的な発想,「重回帰分析」的な発想じゃないか?
まあ,重回帰分析は多変量解析の基礎であるため,その他の多変量解析にそのアイデアが盛り込まれているので,これ自身は特別問題はありません。しかし,「小数の効果的な」は因子分析的な発想です。
そう,SPSSにおける正準判別分析とは「固有値」という指標が前面に出てくるため,実は「重回帰分析」と「因子分析」という雪本的多変量解析の二大代表手法の解読法を知っていなければならないわけです。
よく,判別分析は,重回帰分析の改訂版といわれますが,正準判別分析の場合には,重回帰分析だけではなく,因子分析のアイデアが盛り込まれている点に注意する必要があるでしょう(※1)。
このように多くの多変量解析は「直線」という考えがベースになっており,このため,線型的な統計分析だといわれるわけです。
※1 実際には,因子分析ではなく,正準相関分析のアイデアですが。
コメント ( 3 ) | Trackback ( 0 )
SPSS使用説明プリントの種類
( ゜д゜) 熱くなってマス!
うだる感じの雪本さん。あーつーいー
はてさて。前回ちらりと報告したように「SPSSの使用手引き」なるものを授業配布用に作成しているわけですが,ちまちま頑張っております。
今のところ,こんな感じのものを作りました。
<二水準の差異分析>
○対応なし/ありt検定(間隔)
○マン・ホイトニー検定&符号検定(順序)
○χ2検定&マクニマー検定(名義2カテゴリ)
○χ2検定&拡張マクニマー検定(名義汎用)
<一要因三水準以上の差異分析>
○対応なし/あり分散分析(間隔)
○クラスカル・ウォリス検定&フリードマン検定(順序)
○χ2検定&コクランのQ検定(名義2カテゴリ)
○χ2検定(名義汎用)[対応あり版名義汎用分析はなし]
<二要因の差異分析>
○対応なし×なし分散分析(間隔)
○対応なし×あり分散分析(間隔)
○対応あり×あり分散分析(間隔)
<二変数の類似分析>
○ピアソン相関係数(間隔×間隔)
○回帰係数/分析(間隔×間隔)
○スピアマン&ケンドール順位相関係数(順序×順序)
○クラメール連関係数(名義×名義)
○相関比(名義×間隔)
<三変数以上の類似分析>
○偏相関係数(間隔)
○α係数(間隔)
○ケンドールの一致係数(順序)
Θ・)ノ「とりあえず,こんな感じ」
勿論,手法の選択は「統計tool」に搭載している手法を拡張していく形で紹介しています(すなわち「雪本流の選択」観に基づいています)。
多変量解析についても頑張るよー
( ゜д゜) 高度な多変量解析についてはしばらく後に作る気ですがね
うだる感じの雪本さん。あーつーいー
はてさて。前回ちらりと報告したように「SPSSの使用手引き」なるものを授業配布用に作成しているわけですが,ちまちま頑張っております。
今のところ,こんな感じのものを作りました。
<二水準の差異分析>
○対応なし/ありt検定(間隔)
○マン・ホイトニー検定&符号検定(順序)
○χ2検定&マクニマー検定(名義2カテゴリ)
○χ2検定&拡張マクニマー検定(名義汎用)
<一要因三水準以上の差異分析>
○対応なし/あり分散分析(間隔)
○クラスカル・ウォリス検定&フリードマン検定(順序)
○χ2検定&コクランのQ検定(名義2カテゴリ)
○χ2検定(名義汎用)[対応あり版名義汎用分析はなし]
<二要因の差異分析>
○対応なし×なし分散分析(間隔)
○対応なし×あり分散分析(間隔)
○対応あり×あり分散分析(間隔)
<二変数の類似分析>
○ピアソン相関係数(間隔×間隔)
○回帰係数/分析(間隔×間隔)
○スピアマン&ケンドール順位相関係数(順序×順序)
○クラメール連関係数(名義×名義)
○相関比(名義×間隔)
<三変数以上の類似分析>
○偏相関係数(間隔)
○α係数(間隔)
○ケンドールの一致係数(順序)
Θ・)ノ「とりあえず,こんな感じ」
勿論,手法の選択は「統計tool」に搭載している手法を拡張していく形で紹介しています(すなわち「雪本流の選択」観に基づいています)。
多変量解析についても頑張るよー
( ゜д゜) 高度な多変量解析についてはしばらく後に作る気ですがね
コメント ( 0 ) | Trackback ( 0 )
一事例研究の統計分析
( ゜д゜) ちらちら
一事例実験計画の研究法をちらりと流し読み。
この類の分析法は「ベースライン期と介入期の違い」が「視覚的に明らかであるか」を判断基準としている……ということが概論書に多く書かれている説明です。
それはそれでもっともな主張だと思います(もともと一事例研究は反統計分析という性格を持っているので)。しかし,統計分析に惚れ込んでいる雪本さんとしてはちょっと
Θ・)ノ「むぅ」
と思ってしまうわけです。
幸いにも購入した本には,一事例研究における統計分析法の解説(全面的に解説されているというわけではなく,参考・ヒントですが)あるので,これを使って,一事例統計分析も勉強してみようと思っています。
一事例実験計画の研究法をちらりと流し読み。
この類の分析法は「ベースライン期と介入期の違い」が「視覚的に明らかであるか」を判断基準としている……ということが概論書に多く書かれている説明です。
それはそれでもっともな主張だと思います(もともと一事例研究は反統計分析という性格を持っているので)。しかし,統計分析に惚れ込んでいる雪本さんとしてはちょっと
Θ・)ノ「むぅ」
と思ってしまうわけです。
幸いにも購入した本には,一事例研究における統計分析法の解説(全面的に解説されているというわけではなく,参考・ヒントですが)あるので,これを使って,一事例統計分析も勉強してみようと思っています。
コメント ( 0 ) | Trackback ( 0 )
符号付き順位和検定
( ゜д゜) JMP(統計ソフト)の購入申請をしたぞよ
前回の投稿で符号検定の話をしたので,それに関連した話。
雪本的には,順序尺度版対応あり二水準差異検定法を「符号検定」と位置づけています。しかし,統計の教科書にはこの符号検定の他にも,より検定力が高い検定法が紹介されています。それは「符号付き順位和検定」あるいは「T検定」と呼ばれているものです。
しかし,雪本は,検定力が高いにもかかわらず「T検定」を採用せずに,検定力が低い「符号検定」を採用しています。なぜでしょうか?
それは「符号検定」の拡張版として「フリードマン検定」がありますが,「T検定」の拡張版が開発(あるいは普及)されていないからです。
すなわち,純粋に二水準データの分析をしたいのであれば「T検定」が望ましいのですが,「分散分析→多重比較」のように下位検定として使うことを考慮すれば,「符号検定」が望ましいのです。
( ゜д゜) フリードマン検定→(有意水準調整型の)T検定による多重比較はだめ?
…と思われる人もいるかもしれませんが,雪本的にはこれはまずいと考えます。
よく「分散分析では有意であったけど,多重比較法では(どのペアでも)有意ではなかった」と言われるように,分散分析は多重比較法とは結果に食い違いが生じます。この前提になるのは,「分散分析の結果と,多重比較の結果は,なるべく同じになるように,整合性があることが望ましい」という命題でしょう。
しかし,「フリードマン検定」は検定力はほどほど,「T検定」はそれなりに検定力あり,というのでは,整合性のある結果など望むことはできないでしょう?
上記の命題を成立させるという意味から,「フリードマン検定→T検定による多重比較法」は望ましくないと考えるわけです。
(´-`).。oO(ただし,とにかく有意差重視ならば,そのような流れも許容されるかな?
僕自身は,そのような使い方をしていたら,反論をしますが…)
前回の投稿で符号検定の話をしたので,それに関連した話。
雪本的には,順序尺度版対応あり二水準差異検定法を「符号検定」と位置づけています。しかし,統計の教科書にはこの符号検定の他にも,より検定力が高い検定法が紹介されています。それは「符号付き順位和検定」あるいは「T検定」と呼ばれているものです。
しかし,雪本は,検定力が高いにもかかわらず「T検定」を採用せずに,検定力が低い「符号検定」を採用しています。なぜでしょうか?
それは「符号検定」の拡張版として「フリードマン検定」がありますが,「T検定」の拡張版が開発(あるいは普及)されていないからです。
すなわち,純粋に二水準データの分析をしたいのであれば「T検定」が望ましいのですが,「分散分析→多重比較」のように下位検定として使うことを考慮すれば,「符号検定」が望ましいのです。
( ゜д゜) フリードマン検定→(有意水準調整型の)T検定による多重比較はだめ?
…と思われる人もいるかもしれませんが,雪本的にはこれはまずいと考えます。
よく「分散分析では有意であったけど,多重比較法では(どのペアでも)有意ではなかった」と言われるように,分散分析は多重比較法とは結果に食い違いが生じます。この前提になるのは,「分散分析の結果と,多重比較の結果は,なるべく同じになるように,整合性があることが望ましい」という命題でしょう。
しかし,「フリードマン検定」は検定力はほどほど,「T検定」はそれなりに検定力あり,というのでは,整合性のある結果など望むことはできないでしょう?
上記の命題を成立させるという意味から,「フリードマン検定→T検定による多重比較法」は望ましくないと考えるわけです。
(´-`).。oO(ただし,とにかく有意差重視ならば,そのような流れも許容されるかな?
僕自身は,そのような使い方をしていたら,反論をしますが…)
コメント ( 0 ) | Trackback ( 0 )
符号検定
( ゜д゜) めもめも
先程,同僚と統計に関するおしゃべりをしていましたが,そのときに浮かんだアイデアをちょっとメモります。
符号検定というのは,順序尺度版対応あり差異の検定法と位置づけられます。
ただし,この検定法は,対応あるデータが同値の場合には計算対象から除外されるという問題点があります。
簡単に「0/1」データだとします。二条件の場合であれば,(0,0),(0,1),(1,0),(1,1)の組合せが考えられます。
しかし符号検定の場合は,(0,1)のデータ数と(1,0)のデータ数は計算情報として取り込まれますが,(0,0)と(1,1)情報は採り入れられません。
でも,(0,0)(1,1)が100ペア中90ペアあったとすれば,残りの(0,1)と(1,0)がどんな配分であろうとも,二条件には差がないと考えるのが普通だと思います。しかし,符号検定では,その辺の情報が考慮されません。
この意味するところは,符号検定(を含む多くの検定法)は,同値データを含むデータを計算対象として考えていないということになります。
そこで,ちょっと思いついたアイデアですが,ならば,(0,0)と(1,0)のデータ情報も採り入れてしまったものに修正すればよいのでは? ということです。
(0,0)……30ペア(30%) (0,1)……30ペア(30%)
(1,0)……10ペア(10%) (1,1)……20ペア(20%)
(0,1)及び(1,0)データに限定(40ペア)
(0,1)……30ペア(75%) (1,0)……10ペア(25%)
通常の符号検定の場合は【75%-25%】の計算を行います。
それを【30%-10%】として計算してしまえ,ということです。なお,それぞれのカテゴリは従属関係にありますので,従属関係を考慮したちょっと特殊な比率計算法を使わなければなりませんが……
※特殊な計算式
http://www.sci.kagoshima-u.ac.jp/~ebsa/asai01/index.html
の(p180)を参照
■追加■
折角なので「特殊な計算式」を書いておきます。
例えば,BとCとの比率の差を調べたいという場合は
という,計算をすればよかですよ。
参考文献)『すぐわかるSPSSによるアンケートの調査・集計・解析 第二版』(p108)
先程,同僚と統計に関するおしゃべりをしていましたが,そのときに浮かんだアイデアをちょっとメモります。
符号検定というのは,順序尺度版対応あり差異の検定法と位置づけられます。
ただし,この検定法は,対応あるデータが同値の場合には計算対象から除外されるという問題点があります。
簡単に「0/1」データだとします。二条件の場合であれば,(0,0),(0,1),(1,0),(1,1)の組合せが考えられます。
しかし符号検定の場合は,(0,1)のデータ数と(1,0)のデータ数は計算情報として取り込まれますが,(0,0)と(1,1)情報は採り入れられません。
でも,(0,0)(1,1)が100ペア中90ペアあったとすれば,残りの(0,1)と(1,0)がどんな配分であろうとも,二条件には差がないと考えるのが普通だと思います。しかし,符号検定では,その辺の情報が考慮されません。
この意味するところは,符号検定(を含む多くの検定法)は,同値データを含むデータを計算対象として考えていないということになります。
そこで,ちょっと思いついたアイデアですが,ならば,(0,0)と(1,0)のデータ情報も採り入れてしまったものに修正すればよいのでは? ということです。
(0,0)……30ペア(30%) (0,1)……30ペア(30%)
(1,0)……10ペア(10%) (1,1)……20ペア(20%)
(0,1)及び(1,0)データに限定(40ペア)
(0,1)……30ペア(75%) (1,0)……10ペア(25%)
通常の符号検定の場合は【75%-25%】の計算を行います。
それを【30%-10%】として計算してしまえ,ということです。なお,それぞれのカテゴリは従属関係にありますので,従属関係を考慮したちょっと特殊な比率計算法を使わなければなりませんが……
※特殊な計算式
http://www.sci.kagoshima-u.ac.jp/~ebsa/asai01/index.html
の(p180)を参照
■追加■
折角なので「特殊な計算式」を書いておきます。
【例題】 A B C D 計 人数 75 55 39 31 200 比率 0.375 0.275 0.195 0.155 1.000 【計算式】 Pa-Pb u=───────── (Pa+Pb) √[─────] N
例えば,BとCとの比率の差を調べたいという場合は
0.275-0.195 u=─────────── (0.275+0.195) √[────────] 200
という,計算をすればよかですよ。
参考文献)『すぐわかるSPSSによるアンケートの調査・集計・解析 第二版』(p108)
コメント ( 0 ) | Trackback ( 0 )
相関から多変量解析へ
( ゜д゜) 具体的に示してみろっ!
雪本さん的には多変量解析というのは「相関係数/分析」の発展版と考えています。また,このような捉え方は比較的多くの統計教科書でも使われている説明です。
しかし,具体的にどのように発展しているかを,学習者に示すことができないならば「負け」だと思っています。
現在,相関係数から重回帰分析については,その説明図式の過程がわかりました。
でも,もう一つ,多変量解析の代表手法である「因子分析」についての説明図式が見つからない・思いつきません。
できれば,この辺の「相関係数から多変量解析へ」の話題を今年度中に整理することができれば……と思っています。
(´-`).。oO(そして,どこかの私的研究会で発表したいなぁ)
追伸)t検定から,その拡張版である分散分析がどのように拡張されるかについてですが,これについての説明アイデアはある程度もやっとしたものがあっちゃったりします。
雪本さん的には多変量解析というのは「相関係数/分析」の発展版と考えています。また,このような捉え方は比較的多くの統計教科書でも使われている説明です。
しかし,具体的にどのように発展しているかを,学習者に示すことができないならば「負け」だと思っています。
現在,相関係数から重回帰分析については,その説明図式の過程がわかりました。
でも,もう一つ,多変量解析の代表手法である「因子分析」についての説明図式が見つからない・思いつきません。
できれば,この辺の「相関係数から多変量解析へ」の話題を今年度中に整理することができれば……と思っています。
(´-`).。oO(そして,どこかの私的研究会で発表したいなぁ)
追伸)t検定から,その拡張版である分散分析がどのように拡張されるかについてですが,これについての説明アイデアはある程度もやっとしたものがあっちゃったりします。
コメント ( 0 ) | Trackback ( 0 )
「0/1データ」におけるt検定とχ2検定
( ゜д゜) 脚が,足が,ひえびえ
寒いですっ! 寒々ですっ!
さて,最近は統計解析法のネタを振ってないなぁ,と思って……
ブログ読者の皆様に質問ですが,「0/1」データにt検定を行っている後輩がいたらどのように指導しますか?
「0/1データにt検定を行うのは間違い。名義2カテゴリデータだから,比率データだから,χ2検定を行いなさい」
多分,こんな感じの指導をすると思います。僕自身もχ2検定を使うのは問題ないと思っていますが,だからといってt検定を間違いというのはどうだろうと,最近,考えています。
( ゜д゜) えー。だってt検定というのは正規分布を仮定する分析でしょ?
統計解析法を勉強していて,雪本さん,そんなことも知らないのー?
…という意見を先に封じ込めておきます。
t検定は,確かに正規分布を仮定する検定法です。そして,それと同様にχ2検定も正規分布を仮定する検定法ですが,その辺はご存知でしょうか?(ほとんどの教科書では,この辺の解説がほとんどされていませんが,放送大学出版『統計の考え方・改訂版』には,χ2検定が【パラメトリック】検定法であることが明記されています)
さて,もう一度繰り返します。
χ2検定ではokなのに,t検定は駄目だという理由はどこにあるのでしょうか?
(´-`).。oO(今回,敢えて回答となる部分をすっ飛ばしています。)
寒いですっ! 寒々ですっ!
さて,最近は統計解析法のネタを振ってないなぁ,と思って……
ブログ読者の皆様に質問ですが,「0/1」データにt検定を行っている後輩がいたらどのように指導しますか?
「0/1データにt検定を行うのは間違い。名義2カテゴリデータだから,比率データだから,χ2検定を行いなさい」
多分,こんな感じの指導をすると思います。僕自身もχ2検定を使うのは問題ないと思っていますが,だからといってt検定を間違いというのはどうだろうと,最近,考えています。
( ゜д゜) えー。だってt検定というのは正規分布を仮定する分析でしょ?
統計解析法を勉強していて,雪本さん,そんなことも知らないのー?
…という意見を先に封じ込めておきます。
t検定は,確かに正規分布を仮定する検定法です。そして,それと同様にχ2検定も正規分布を仮定する検定法ですが,その辺はご存知でしょうか?(ほとんどの教科書では,この辺の解説がほとんどされていませんが,放送大学出版『統計の考え方・改訂版』には,χ2検定が【パラメトリック】検定法であることが明記されています)
さて,もう一度繰り返します。
χ2検定ではokなのに,t検定は駄目だという理由はどこにあるのでしょうか?
(´-`).。oO(今回,敢えて回答となる部分をすっ飛ばしています。)
コメント ( 0 ) | Trackback ( 0 )
母集団から統計量分布へ
※図のみ提示
────────────────────────── ┌───┐ ┌─────┤ 母 ├─────┐ │ │ 集 │ │ │ ┌┤ 団 ├┐ │ ↓ │└───┘│ ↓ ┌───┐ ↓ ↓ ┌───┐ │標本①│┌───┐ ┌───┐│標本④│ └─┬─┘│標本②│ │標本③│└─┬─┘ │ └─┬─┘ └─┬─┘ │ ↓ ↓ ↓ ↓ ┌───┐┌───┐ ┌───┐┌───┐ │統計量││統計量│ │統計量││統計量│ ┃│ ① ││ ② │ │ ③ ││ ④ │┃ ┃└───┘└───┘ └───┘└───┘┃ ┗━━━━━━━━━━━━━━━━━━━━━┛ 統計量の分布 ──────────────────────────
コメント ( 0 ) | Trackback ( 0 )
クラスター分析
( ゜д゜) まとめちゃうのよ?
クラスター分析に関する相談を受ける中でのbobさんからのコメントを読み。
昨今,データマイニングと呼ばれる分析思想及び方法論が普及しています。
これは,それまでの,既存のモデルに収集データが合致しているかどうかを調べる検定法中心の推測統計学に対する反動の一つです。
反動の流れとしては,一つは,自分でモデルを構築しようというもので,この思想に基づくものとして,共分散構造分析や一般化線型モデル(混合モデルを含む)などがあります。
もう一つの反動として登場したのが,データマイニングです。あまりにも多くのデータが集まりすぎたため,検定という行為に意味が無くなってしまった……そこで,検定を行うのではなく,データを記述することに専念しよう,という発想です(多分)。クラスター分析は,このデータマイニングの思想と合致しております。
(´-`).。oO(異なる分析思想なので,同じ多変量解析に分類されていても
クラスター分析は異質だったのさ)
そんなデータマイニングの思想に基づくクラスター分析でも,「やはり検定を行ってみたい」という願いがあり,その願いに応えて「いくらのクラスターにすればよいか?」などを調べる基準が開発されたわけですね。
Rなんかではそのような基準がたくさんあるようで……
僕個人が知っているのは,「疑似F値(pseudo F)」というものです。その別名が「calinski」であることは初耳ですよ。
ところで,これはどうやって描いたんでしょうか? ペイント?
クラスター分析に関する相談を受ける中でのbobさんからのコメントを読み。
昨今,データマイニングと呼ばれる分析思想及び方法論が普及しています。
これは,それまでの,既存のモデルに収集データが合致しているかどうかを調べる検定法中心の推測統計学に対する反動の一つです。
反動の流れとしては,一つは,自分でモデルを構築しようというもので,この思想に基づくものとして,共分散構造分析や一般化線型モデル(混合モデルを含む)などがあります。
もう一つの反動として登場したのが,データマイニングです。あまりにも多くのデータが集まりすぎたため,検定という行為に意味が無くなってしまった……そこで,検定を行うのではなく,データを記述することに専念しよう,という発想です(多分)。クラスター分析は,このデータマイニングの思想と合致しております。
(´-`).。oO(異なる分析思想なので,同じ多変量解析に分類されていても
クラスター分析は異質だったのさ)
そんなデータマイニングの思想に基づくクラスター分析でも,「やはり検定を行ってみたい」という願いがあり,その願いに応えて「いくらのクラスターにすればよいか?」などを調べる基準が開発されたわけですね。
Rなんかではそのような基準がたくさんあるようで……
僕個人が知っているのは,「疑似F値(pseudo F)」というものです。その別名が「calinski」であることは初耳ですよ。
ところで,これはどうやって描いたんでしょうか? ペイント?
コメント ( 1 ) | Trackback ( 0 )
一般線形モデルについて
( ゜д゜) たくさんあるある
高度な分散分析法を整理してみての図式的理解
修正をするかもしれないので,そのつもりで参考にして下さい。
なお,多少,雪本流の用語を使っていたりするのでその辺も注意。
重要な点は,多分,次の点。
「一般」と「一般化」は全く異なる。線形モデルは正式には一般線形モデルと呼ぶそうだが,その拡張版である「一般化一般線形モデル」では語呂が悪いので,「一般」を省略して,「一般化線形モデル」とする。
忘れないうちにメモメモ。
やっぱり「一般」と「一般化」についての記述に混乱が見られます。
「GLM」という略語が,ある場面では「general linear model(一般線形モデル)」であったり,ある場面では「generalized linear model(一般化線形モデル)」であったりします。
同じGLMであっても,どちらの意味で使われているか注意しなければなりません。
統計学事典によると,GLMは一般化線形モデルとして説明されていました。
追伸
(´-`).。oO(関係のなさそうなTBは問答無用で消します)
高度な分散分析法を整理してみての図式的理解
修正をするかもしれないので,そのつもりで参考にして下さい。
なお,多少,雪本流の用語を使っていたりするのでその辺も注意。
重要な点は,多分,次の点。
「一般」と「一般化」は全く異なる。線形モデルは正式には一般線形モデルと呼ぶそうだが,その拡張版である「一般化一般線形モデル」では語呂が悪いので,「一般」を省略して,「一般化線形モデル」とする。
線形モデルの整理図 ~「固定/変動」+「正規分布/指数分布族」の観点から~ ──────────────────────────── 固定 ────────────→ 変動 ┌───────────────────┐ │┌──── 線形混合モデル ────┐│ 誤差 ││┌──────────┐ ││ ∥ │││┌────────┐│┌───┐││ 正規分布 ││││┌──────┐│││ │││ │││││球面性ANOVA ││││重回帰│││ │ ││││└──────┘│││分 析│││ │ ││││ GMANOVA │││ │││ │ ││││ │││ │││ │ │││└ 線形固定モデル ┘│└ 変動 ┘││ ↓ │└┼──────────┼─────┘│ │ │ │ │ 誤差 │ │ │ │ ∥ │ └ 一般化線形モデル ┘ │指数分布族 └──── 一般化線形混合モデル ────┘ ────────────────────────────
忘れないうちにメモメモ。
やっぱり「一般」と「一般化」についての記述に混乱が見られます。
「GLM」という略語が,ある場面では「general linear model(一般線形モデル)」であったり,ある場面では「generalized linear model(一般化線形モデル)」であったりします。
同じGLMであっても,どちらの意味で使われているか注意しなければなりません。
統計学事典によると,GLMは一般化線形モデルとして説明されていました。
追伸
(´-`).。oO(関係のなさそうなTBは問答無用で消します)
コメント ( 0 ) | Trackback ( 0 )
« 前ページ | 次ページ » |