統計モデル その2 確認的因子分析のlavaan、SEMパス図のsemPlot
統計モデル その1
http://blog.goo.ne.jp/xmldtp/e/b37438b77a4cab330ebbf7d14be4a2bd
の続き
昨日の授業の「統計モデル」の内容をメモメモ
構成概念の測定
確認的因子分析
Rによる確認的因子分析
因子分析
確認的因子分析
探索的因子分析(ふつうこっちだけど)
■構成概念の測定
SEMでは構成概念を扱うことが多い
構成概念:
直接観測することできない
観察された現象をうまく説明
EX:外向性(心理学用語ーユング)
イメージ、物事に対する態度など
より具体的には
充実感、ブランド力、景気、パーソナリティ・・・
ブランドジャパン
景気:観察可能な経済変数が共変動→因子分析
遺伝子:昔は構成概念
調査研究で構成概念を測定するためには
確認的因子分析的な考え方
・構成概念を定義する
・定義にしたがって、項目を作成する
項目の集まり:尺度
・複数の項目についてデータ収拾
質問紙調査
・データに対して確認的因子分析
複数の項目が同じまとまりを持っているか確認
・尺度の信頼性と妥当性
探索的因子分析考え方
(構成概念を定義するのが難しい場合)
・構成概念を測定しそうな項目を作成
・データ収集
・探索的因子分析→項目のまとまり
・後付け的に構成概念を定義していく
→因子に名前付け
・尺度の信頼性と妥当性
例:性格は5因子→ビッグファイブ理論
特性論と類型論→特性論が現代の主流
5因子とわからなかった
性格を表現する形容詞を辞書から抜き出した
探索的因子分析→その結果5
信頼性と妥当性
信頼性:測定値の安定性(何度測定しても同じ)
妥当性:(大切)意図した構成概念を測定できているか
調査研究で構成概念を使う場合
他の研究者が作成した既存の尺度を使う
→尺度を作るのは、修士だと大きすぎる
勝手に作成するとき:予備調査
■確認的因子分析
因子分析とは
変数間のまとまり(因子)を見つけるための統計手法
相関の高い変数同士が同じ因子にまとまる
例:英数国理社→いくつかの因子にとまる?
確認的因子分析
観測変数がどの因子の影響を受けているかを仮説としてモデル化
観測変数
潜在変数→因子・誤差
SEMの枠組みで分析
適合度:データに対する当てはまり
AIC:適合度指標の1つ
モデルが識別されている必要
例:文系因子、理系因子
双方向の→:共分散、相関
誤差に含まれているもの
誤差=特殊因子+測定誤差
特殊因子:因子とは無関係だが、観測変数の内容を表す
測定誤差:気分やゆらぎ
識別できないモデル:制約を課さないと解が求められない
誤差の間に相関:特殊因子間の相関(共変動)
モデル比較
当てはまりの良いモデル:適合度
統計モデルとは
現実世界の模型、
現実世界を数式によって模倣したもの
現実=データ
(SEMでは)現実=共分散行列を数式に
統計モデル=現実世界の大まかな模型
絶対的な指標と相対的な指標
絶対的な指標:これくらいの値ならいいモデル
GFI,AGFI),CFI,RMSEA,SRMR,かい2乗
かい2乗はサンプルサイズに依存
よく使われるのはRMSEA
相対的な指標:複数のモデルの中での比較
AIC,BIC:小さいほうがいい
同じデータに異なるモデルを見る場合
因子負荷量
説明変数が因子となっている:
単回帰分析、重回帰分析
回帰係数、偏回帰係数:因子負荷量
標準化:-1から1(超えることも)
標準化推定値
矢印の両側の変数の分散を1にしたときの
推定値の値のこと
因子間相関
因子と因子の間の相関
因子得点の推定
因子得点
回帰の独立変数の値
→因子分析では、因子得点は推定
内部でやってることは、因子分析のほうが難しい
共通性:決定係数
独自性:1-決定係数
■Rのパッケージlavaanによる分析
分析 ビッグファイブ
library(psych)のbfi
けっそくには3種類
→リストワイズ削除している
因子分析しても、いい結果でない?
→かんがえてやんないと
逆転項目
測定しようとしている概念と逆
適宜入れるのが推奨・・でも・・
例)
A 調和性:他人に関心ある
A1:他人に関心がない
得点を変換してから分析
因子分析をしても大丈夫だけど、
因子負荷量がそのままだと負
そのまま合計得点を求めてはX
fit.measures 適合度を出してくれる
library(lavaan)
library(psych)
library(semPlot)
#リストワイズ削除
bfi2<-na.omit(bfi)
#名前ふる
colnames(bfi2)<-
c("a1","a2","a3","a4","a5","c1","c2","c3","c4","c5",
"e1","e2","e3","e4","e5","n1","n2","n3","n4","n5",
"o1","o2","o3","o4","o5","gen","edu","age")
#分析モデル
model<-'
A=~a1+a2+a3+a4+a5
'
#分析
fit<-sem(model,data=bfi2)
#結果サマリー
summary(fit,standardized=T,fit.measures=TRUE)
#パス図
semPaths(fit,whatLabels="stand",style="lisrel")

#モデルとしては、いまいち。1番目を削除→modelをいじる
#分析モデル
model<-'
A=~ a2+a3+a4+a5
'
#分析
fit<-sem(model,data=bfi2)
#結果サマリー
summary(fit,standardized=T,fit.measures=TRUE)
#パス図
semPaths(fit,whatLabels="stand",style="lisrel")

ここでAICをみてはいけない
→観測データが1個変わっているから
AICは、同じデータに対して・・・
●重回帰分析の変数選択
AICつかったけど・・・
こっちはOK
なぜ?
回帰分析は、独立変数がいくつというのが
AICにかかってこない
SEMは、すべての変数が確率変数
AICにかかってくる
modelへの=~ 潜在変数 (~ 回帰 ~~残差共分散 ~1 切片)
因子の分散、誤差からの係数が1になる
→なぜ?今日はおいておく
std.all(標準化推定値)を取り出す
項目の削除
・因子負荷量の絶対値が著しく小さな項目は削除
(0.3程度できる)
・平均値が極端に大きい項目や小さい項目を削除
誤差分散
誤差の分散が誤差分散
誤差分散は、推定すべきパラメータ
●確率的因子分析のまとめ
・観測変数を因子にまとめるための方法
・観測変数は因子から影響を受けており
影響の大きさは因子負荷量
・想定したモデルがデータに当てはまっているか否か
を確認するために、適合度指標
非標準化推定値と標準化推定値の2つ
・確認的因子分析のパラメータ
因子負荷量
誤差分散
因子間相関
もうひとつモデルをやったんだけど。。。
気が向いたら書く
統計モデル その1
http://blog.goo.ne.jp/xmldtp/e/b37438b77a4cab330ebbf7d14be4a2bd
の続き
昨日の授業の「統計モデル」の内容をメモメモ
構成概念の測定
確認的因子分析
Rによる確認的因子分析
因子分析
確認的因子分析
探索的因子分析(ふつうこっちだけど)
■構成概念の測定
SEMでは構成概念を扱うことが多い
構成概念:
直接観測することできない
観察された現象をうまく説明
EX:外向性(心理学用語ーユング)
イメージ、物事に対する態度など
より具体的には
充実感、ブランド力、景気、パーソナリティ・・・
ブランドジャパン
景気:観察可能な経済変数が共変動→因子分析
遺伝子:昔は構成概念
調査研究で構成概念を測定するためには
確認的因子分析的な考え方
・構成概念を定義する
・定義にしたがって、項目を作成する
項目の集まり:尺度
・複数の項目についてデータ収拾
質問紙調査
・データに対して確認的因子分析
複数の項目が同じまとまりを持っているか確認
・尺度の信頼性と妥当性
探索的因子分析考え方
(構成概念を定義するのが難しい場合)
・構成概念を測定しそうな項目を作成
・データ収集
・探索的因子分析→項目のまとまり
・後付け的に構成概念を定義していく
→因子に名前付け
・尺度の信頼性と妥当性
例:性格は5因子→ビッグファイブ理論
特性論と類型論→特性論が現代の主流
5因子とわからなかった
性格を表現する形容詞を辞書から抜き出した
探索的因子分析→その結果5
信頼性と妥当性
信頼性:測定値の安定性(何度測定しても同じ)
妥当性:(大切)意図した構成概念を測定できているか
調査研究で構成概念を使う場合
他の研究者が作成した既存の尺度を使う
→尺度を作るのは、修士だと大きすぎる
勝手に作成するとき:予備調査
■確認的因子分析
因子分析とは
変数間のまとまり(因子)を見つけるための統計手法
相関の高い変数同士が同じ因子にまとまる
例:英数国理社→いくつかの因子にとまる?
確認的因子分析
観測変数がどの因子の影響を受けているかを仮説としてモデル化
観測変数
潜在変数→因子・誤差
SEMの枠組みで分析
適合度:データに対する当てはまり
AIC:適合度指標の1つ
モデルが識別されている必要
例:文系因子、理系因子
双方向の→:共分散、相関
誤差に含まれているもの
誤差=特殊因子+測定誤差
特殊因子:因子とは無関係だが、観測変数の内容を表す
測定誤差:気分やゆらぎ
識別できないモデル:制約を課さないと解が求められない
誤差の間に相関:特殊因子間の相関(共変動)
モデル比較
当てはまりの良いモデル:適合度
統計モデルとは
現実世界の模型、
現実世界を数式によって模倣したもの
現実=データ
(SEMでは)現実=共分散行列を数式に
統計モデル=現実世界の大まかな模型
絶対的な指標と相対的な指標
絶対的な指標:これくらいの値ならいいモデル
GFI,AGFI),CFI,RMSEA,SRMR,かい2乗
かい2乗はサンプルサイズに依存
よく使われるのはRMSEA
相対的な指標:複数のモデルの中での比較
AIC,BIC:小さいほうがいい
同じデータに異なるモデルを見る場合
因子負荷量
説明変数が因子となっている:
単回帰分析、重回帰分析
回帰係数、偏回帰係数:因子負荷量
標準化:-1から1(超えることも)
標準化推定値
矢印の両側の変数の分散を1にしたときの
推定値の値のこと
因子間相関
因子と因子の間の相関
因子得点の推定
因子得点
回帰の独立変数の値
→因子分析では、因子得点は推定
内部でやってることは、因子分析のほうが難しい
共通性:決定係数
独自性:1-決定係数
■Rのパッケージlavaanによる分析
分析 ビッグファイブ
library(psych)のbfi
けっそくには3種類
→リストワイズ削除している
因子分析しても、いい結果でない?
→かんがえてやんないと
逆転項目
測定しようとしている概念と逆
適宜入れるのが推奨・・でも・・
例)
A 調和性:他人に関心ある
A1:他人に関心がない
得点を変換してから分析
因子分析をしても大丈夫だけど、
因子負荷量がそのままだと負
そのまま合計得点を求めてはX
fit.measures 適合度を出してくれる
library(lavaan)
library(psych)
library(semPlot)
#リストワイズ削除
bfi2<-na.omit(bfi)
#名前ふる
colnames(bfi2)<-
c("a1","a2","a3","a4","a5","c1","c2","c3","c4","c5",
"e1","e2","e3","e4","e5","n1","n2","n3","n4","n5",
"o1","o2","o3","o4","o5","gen","edu","age")
#分析モデル
model<-'
A=~a1+a2+a3+a4+a5
'
#分析
fit<-sem(model,data=bfi2)
#結果サマリー
summary(fit,standardized=T,fit.measures=TRUE)
#パス図
semPaths(fit,whatLabels="stand",style="lisrel")

#モデルとしては、いまいち。1番目を削除→modelをいじる
#分析モデル
model<-'
A=~ a2+a3+a4+a5
'
#分析
fit<-sem(model,data=bfi2)
#結果サマリー
summary(fit,standardized=T,fit.measures=TRUE)
#パス図
semPaths(fit,whatLabels="stand",style="lisrel")

ここでAICをみてはいけない
→観測データが1個変わっているから
AICは、同じデータに対して・・・
●重回帰分析の変数選択
AICつかったけど・・・
こっちはOK
なぜ?
回帰分析は、独立変数がいくつというのが
AICにかかってこない
SEMは、すべての変数が確率変数
AICにかかってくる
modelへの=~ 潜在変数 (~ 回帰 ~~残差共分散 ~1 切片)
因子の分散、誤差からの係数が1になる
→なぜ?今日はおいておく
std.all(標準化推定値)を取り出す
項目の削除
・因子負荷量の絶対値が著しく小さな項目は削除
(0.3程度できる)
・平均値が極端に大きい項目や小さい項目を削除
誤差分散
誤差の分散が誤差分散
誤差分散は、推定すべきパラメータ
●確率的因子分析のまとめ
・観測変数を因子にまとめるための方法
・観測変数は因子から影響を受けており
影響の大きさは因子負荷量
・想定したモデルがデータに当てはまっているか否か
を確認するために、適合度指標
非標準化推定値と標準化推定値の2つ
・確認的因子分析のパラメータ
因子負荷量
誤差分散
因子間相関
もうひとつモデルをやったんだけど。。。
気が向いたら書く