Dr内野のおすすめ文献紹介

集中治療関連の文献紹介が主な趣旨のブログ。
しかし、セミリタイアした人間の文献紹介なんて価値があるのか?

僕が思うデータ解析のやり方

2022年09月10日 | ひとりごと
涼しくなってきましたね。秋バージョンに変更。

JIPADのデータが研究目的に利用可能になって2年半が経った。現時点で40の研究が申請され、そのうち8本が文献として公表されている。他にもMIMIC-IIIなど複数のデータベースが利用可能なので、最近はそれらを使ったNの大きい研究が多く行われるようになった。
でも、あまり研究に慣れていない人がそんな大きいデータを受け取ると、結果を出す(図表を作る)までにいくつかの壁にぶつかり、なかなかスムーズに解析が進まなかったりするようだ。なので解析方法をここに簡単にまとめておけば、「これ読んで」と言えるなと思った。あくまで僕のやり方なので、成書とはきっと違うだろうけど。

・項目を眺め、その定義を把握する。
・それぞれの項目について、欠損値がどれくらいあるか、異常値はないかを調べる。
・欠損値の扱いを決める(これは統計家と相談が必要かも)。
・直せる異常値は直す(Kが45だったら4.5にする)。他の項目との関係で直せるものもある(0歳で体重が31kgだったら3.1kgとか)。直せないものは欠損にする。
・ヒストグラムでデータの分布を見る。見逃した異常値を見つけたり、異常値の補正に問題があったことに気がついたり(正規分布しているかを見るというのもあるが、医療データは正規分布しないことが多いので、僕は検定などはしないで中央値で表記するからあまり気にしない)。
・統計解析に進めるようにデータを変形する:テキストデータを数字にしたり、多ラベルをone-hotにしたり。
・群に分ける。この辺で、除外データが決まったり増えたりする(群に分けられない、重要なデータがないなど)。
・全項目について、簡単な解析をする:中央値(25th-75th)、頻度、群間比較。
・結果をじっと見る。そうすると色々思いつく。どんな図を作ると分かりやすいかとか、こんな解析をしようとか。
・ここまで来て、やっとメインの解析(多変量解析とか)を行う。
・統計家に依頼する場合は、多変量解析が行えるようなデータ形式にして、説明を追記する。

一番大事なのは、慌ててメインの解析をしないこと。データには癖があるので、それを理解しないといけないので。逆に、癖を理解すると、より良い解析方法を思いついたりするし、別の研究で同じデータが利用できるようになる。
コメント
  • X
  • Facebookでシェアする
  • はてなブックマークに追加する
  • LINEでシェアする