goo blog サービス終了のお知らせ 

ウィリアムのいたずらの、まちあるき、たべあるき

ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も)

統計モデル その2 確認的因子分析のlavaan、SEMパス図のsemPlot

2013-11-15 09:23:04 | AI・BigData
統計モデル その2 確認的因子分析のlavaan、SEMパス図のsemPlot


統計モデル その1
http://blog.goo.ne.jp/xmldtp/e/b37438b77a4cab330ebbf7d14be4a2bd

の続き
昨日の授業の「統計モデル」の内容をメモメモ




構成概念の測定
確認的因子分析
Rによる確認的因子分析

因子分析
  確認的因子分析
  探索的因子分析(ふつうこっちだけど)

■構成概念の測定
 SEMでは構成概念を扱うことが多い
 構成概念:
   直接観測することできない
   観察された現象をうまく説明
    EX:外向性(心理学用語ーユング)
   イメージ、物事に対する態度など
   より具体的には
     充実感、ブランド力、景気、パーソナリティ・・・
     ブランドジャパン
     景気:観察可能な経済変数が共変動→因子分析
     遺伝子:昔は構成概念

調査研究で構成概念を測定するためには
  確認的因子分析的な考え方
    ・構成概念を定義する
    ・定義にしたがって、項目を作成する
       項目の集まり:尺度
    ・複数の項目についてデータ収拾
       質問紙調査
    ・データに対して確認的因子分析
       複数の項目が同じまとまりを持っているか確認
    ・尺度の信頼性と妥当性

  探索的因子分析考え方
    (構成概念を定義するのが難しい場合)
    ・構成概念を測定しそうな項目を作成
    ・データ収集
    ・探索的因子分析→項目のまとまり
    ・後付け的に構成概念を定義していく
       →因子に名前付け
    ・尺度の信頼性と妥当性

  例:性格は5因子→ビッグファイブ理論
      特性論と類型論→特性論が現代の主流
    5因子とわからなかった
      性格を表現する形容詞を辞書から抜き出した
      探索的因子分析→その結果5

  信頼性と妥当性
   信頼性:測定値の安定性(何度測定しても同じ)
   妥当性:(大切)意図した構成概念を測定できているか

  調査研究で構成概念を使う場合
   他の研究者が作成した既存の尺度を使う
    →尺度を作るのは、修士だと大きすぎる
     勝手に作成するとき:予備調査

■確認的因子分析

 因子分析とは
   変数間のまとまり(因子)を見つけるための統計手法
   相関の高い変数同士が同じ因子にまとまる

 例:英数国理社→いくつかの因子にとまる?

 確認的因子分析
   観測変数がどの因子の影響を受けているかを仮説としてモデル化
     観測変数
     潜在変数→因子・誤差
   SEMの枠組みで分析
   適合度:データに対する当てはまり
      AIC:適合度指標の1つ
   モデルが識別されている必要

   例:文系因子、理系因子

   双方向の→:共分散、相関

 誤差に含まれているもの
   誤差=特殊因子+測定誤差
    特殊因子:因子とは無関係だが、観測変数の内容を表す
    測定誤差:気分やゆらぎ

 識別できないモデル:制約を課さないと解が求められない

 誤差の間に相関:特殊因子間の相関(共変動)

 モデル比較
   当てはまりの良いモデル:適合度

 統計モデルとは
   現実世界の模型、
   現実世界を数式によって模倣したもの
     現実=データ
     (SEMでは)現実=共分散行列を数式に
   統計モデル=現実世界の大まかな模型

 絶対的な指標と相対的な指標
   絶対的な指標:これくらいの値ならいいモデル
     GFI,AGFI),CFI,RMSEA,SRMR,かい2乗
     かい2乗はサンプルサイズに依存
     よく使われるのはRMSEA
   相対的な指標:複数のモデルの中での比較
     AIC,BIC:小さいほうがいい
         同じデータに異なるモデルを見る場合

 因子負荷量
   説明変数が因子となっている:
     単回帰分析、重回帰分析
      回帰係数、偏回帰係数:因子負荷量
   標準化:-1から1(超えることも)

 標準化推定値
   矢印の両側の変数の分散を1にしたときの
    推定値の値のこと

 因子間相関
   因子と因子の間の相関
   因子得点の推定

 因子得点
   回帰の独立変数の値
  →因子分析では、因子得点は推定
     内部でやってることは、因子分析のほうが難しい

 共通性:決定係数
 独自性:1-決定係数

■Rのパッケージlavaanによる分析

分析 ビッグファイブ
library(psych)のbfi
けっそくには3種類
 →リストワイズ削除している
因子分析しても、いい結果でない?
 →かんがえてやんないと

逆転項目
 測定しようとしている概念と逆
 適宜入れるのが推奨・・でも・・

例)
A 調和性:他人に関心ある
  A1:他人に関心がない

得点を変換してから分析

因子分析をしても大丈夫だけど、
  因子負荷量がそのままだと負
  そのまま合計得点を求めてはX
fit.measures 適合度を出してくれる


library(lavaan)
library(psych)
library(semPlot)

#リストワイズ削除
bfi2<-na.omit(bfi)

#名前ふる
colnames(bfi2)<-
c("a1","a2","a3","a4","a5","c1","c2","c3","c4","c5",
"e1","e2","e3","e4","e5","n1","n2","n3","n4","n5",
"o1","o2","o3","o4","o5","gen","edu","age")

#分析モデル
model<-'
A=~a1+a2+a3+a4+a5
'
#分析
fit<-sem(model,data=bfi2)

#結果サマリー
summary(fit,standardized=T,fit.measures=TRUE)

#パス図
semPaths(fit,whatLabels="stand",style="lisrel")



#モデルとしては、いまいち。1番目を削除→modelをいじる



#分析モデル
model<-'
A=~ a2+a3+a4+a5
'
#分析
fit<-sem(model,data=bfi2)

#結果サマリー
summary(fit,standardized=T,fit.measures=TRUE)

#パス図
semPaths(fit,whatLabels="stand",style="lisrel")


ここでAICをみてはいけない
→観測データが1個変わっているから
 AICは、同じデータに対して・・・

●重回帰分析の変数選択
  AICつかったけど・・・
 こっちはOK
  なぜ?
 回帰分析は、独立変数がいくつというのが
  AICにかかってこない
 SEMは、すべての変数が確率変数
   AICにかかってくる


modelへの=~ 潜在変数 (~ 回帰 ~~残差共分散 ~1 切片)
因子の分散、誤差からの係数が1になる
 →なぜ?今日はおいておく
std.all(標準化推定値)を取り出す

項目の削除
・因子負荷量の絶対値が著しく小さな項目は削除
  (0.3程度できる)
・平均値が極端に大きい項目や小さい項目を削除

誤差分散
 誤差の分散が誤差分散
 誤差分散は、推定すべきパラメータ

●確率的因子分析のまとめ
・観測変数を因子にまとめるための方法
・観測変数は因子から影響を受けており
 影響の大きさは因子負荷量
・想定したモデルがデータに当てはまっているか否か
 を確認するために、適合度指標
  非標準化推定値と標準化推定値の2つ
・確認的因子分析のパラメータ
  因子負荷量
  誤差分散
  因子間相関




もうひとつモデルをやったんだけど。。。
気が向いたら書く

この記事についてブログを書く
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする
« というか、モバイルファース... | トップ | ajaxでdocument.write→docume... »
最新の画像もっと見る

AI・BigData」カテゴリの最新記事