先日査読者とのやりとりの記事で査読者からのコメントと対策をまとめましたが、引っかかった点があり。投稿している論文では主解析をComplete-case-analysis(CCA)にして、欠測をMultiple-imputation-analysis(MIA)で補完して感度解析にしていたのですが、「MIAはよくわからないのでOmitしろ」「CCAは感度解析にまわせ」との指摘があり、じゃあ主解析はどうすればいいんだろう…と悩んだわけです。誤解なら申し訳なさすぎますが、統計ソフトで解析する際はデフォルトでCCAになっていることをご存じなかったのかもしれません。
というわけで、欠測の取り扱い方法について。私は以前BMJの記事を読んで勉強したので、サラッと紹介しつつ、自分の理解を加えてまとめておきます(のでズレてたらすいません)。ちなみに後半部分はMIの各論になるので、本記事ではその手前まで。
Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls
【欠測メカニズム】
Missing completely at random (MCAR)
欠測は完全に偶然おこる
→欠測あり/なしで欠測変数の分布は同じ
例:血圧計が壊れて測定できなかった
→欠測あり/なし群の真の平均血圧は等しい
Missing at random (MAR)
欠測は偶然ではない
でも欠測は欠測変数とは関係ない原因でおこる
ので頑張れば欠測の原因がわかる
→欠測あり/なしで欠測変数の分布は異なるが、別の変数で説明可能
例:若者は面倒臭がって血圧を測りにこない
→欠測あり群の真の平均血圧はなし群のそれより低い
→でも「若者」の情報を用いて欠測あり群の平均血圧は推測可能
Missing not at random (MNAR)
欠測は偶然ではない
そして欠測は欠測変数の関係した原因でおこる
なので欠測の原因はどう頑張ってもわからない
→欠測あり/なしで欠測変数の分布は異なり、別の変数で説明できない
例:血圧高く頭痛がある人は血圧を測りにこない
→欠測あり群の真の平均血圧はなし群より高い
→「血圧高く頭痛」の情報は得られないので、推測もできない
←血圧測りにきてないので
【欠測メカニズムと適切な解析集団】
MCAR →適切な解析はCCA
欠測は完全に偶然に起こっているので、CCAでバイアスはない。そもそも欠測に特別な理由がないのでMIは使えない。(もしMCARが強く主張できるなら、)単純に欠測なし群のデータを補完する方がCCAより検出力の向上期待できる?
MAR →適切な解析はMIA *条件付き
欠測には理由があり、その理由がわかっているのでMIで欠測値が推測可能。CCAだと異質な欠測あり群のデータをそっくり落とすことになり、MIAよりバイアスが大きい。純粋にサンプルサイズもMIA>CCAなのでMIAの方が検出力が高い。しかし、あくまで①欠測の理由がわかる、②その理由となる情報が全て利用できる、という非常に強い仮定(とくに②は非現実的)を満たした場合のみ。実際は、MIA>CCAがいいかどうかはどのくらい①②が満たせてそうか?に依る。
MNAR →適切な解析はない(CCAでもMIAでもバイアス)
【まとめ】
何を主解析にすべきか?は理論上ははっきりしていて、欠測メカニズム次第ということになります。でも、現実的なところ欠測メカニズムはそもそも欠測してるんだからわかるわけない。多分こうだよね~と想像しつつ、一番ましな方法に落ち着くしかないです。というわけで、個人的な最適解は主解析をCCA / (できるだけ頑張った)MIAを感度解析だと考えています。ぶっちゃけ解析方法はCCAかMIAの2択ですし、「MARで欠測理由となる情報が全て利用できる」なんて無理…ですのでこれが一番素直かなと。
【コメント】
考えれば考えるほど、じゃーどうしたらええねん!と迷子になります。でもそうなんだから仕方ない。「Nを増やす偽装工作の意図で欠測は見て見ぬフリ」もしくは「欠測の存在を考えてすらいない」でTable1のN数と解析のN数が異なる論文はそこそこの雑誌でもよく見かけます。多変量解析に使用した変数だけでMIして、どうだMIAだぞ!と結果を主解析にもってくる論文も実は結構ムリ通してます。何が正しいかはわかりませんが、信念もって研究しなきゃなぁと思う今日この頃。という真面目な話はこのへんにして、この査読者、自分がわかってないの解析のせいにして統計家に相談しろとかほんとひどいっす…
というわけで、欠測の取り扱い方法について。私は以前BMJの記事を読んで勉強したので、サラッと紹介しつつ、自分の理解を加えてまとめておきます(のでズレてたらすいません)。ちなみに後半部分はMIの各論になるので、本記事ではその手前まで。
Multiple imputation for missing data in epidemiological and clinical research: potential and pitfalls
【欠測メカニズム】
Missing completely at random (MCAR)
欠測は完全に偶然おこる
→欠測あり/なしで欠測変数の分布は同じ
例:血圧計が壊れて測定できなかった
→欠測あり/なし群の真の平均血圧は等しい
Missing at random (MAR)
欠測は偶然ではない
でも欠測は欠測変数とは関係ない原因でおこる
ので頑張れば欠測の原因がわかる
→欠測あり/なしで欠測変数の分布は異なるが、別の変数で説明可能
例:若者は面倒臭がって血圧を測りにこない
→欠測あり群の真の平均血圧はなし群のそれより低い
→でも「若者」の情報を用いて欠測あり群の平均血圧は推測可能
Missing not at random (MNAR)
欠測は偶然ではない
そして欠測は欠測変数の関係した原因でおこる
なので欠測の原因はどう頑張ってもわからない
→欠測あり/なしで欠測変数の分布は異なり、別の変数で説明できない
例:血圧高く頭痛がある人は血圧を測りにこない
→欠測あり群の真の平均血圧はなし群より高い
→「血圧高く頭痛」の情報は得られないので、推測もできない
←血圧測りにきてないので
【欠測メカニズムと適切な解析集団】
MCAR →適切な解析はCCA
欠測は完全に偶然に起こっているので、CCAでバイアスはない。そもそも欠測に特別な理由がないのでMIは使えない。(もしMCARが強く主張できるなら、)単純に欠測なし群のデータを補完する方がCCAより検出力の向上期待できる?
MAR →適切な解析はMIA *条件付き
欠測には理由があり、その理由がわかっているのでMIで欠測値が推測可能。CCAだと異質な欠測あり群のデータをそっくり落とすことになり、MIAよりバイアスが大きい。純粋にサンプルサイズもMIA>CCAなのでMIAの方が検出力が高い。しかし、あくまで①欠測の理由がわかる、②その理由となる情報が全て利用できる、という非常に強い仮定(とくに②は非現実的)を満たした場合のみ。実際は、MIA>CCAがいいかどうかはどのくらい①②が満たせてそうか?に依る。
MNAR →適切な解析はない(CCAでもMIAでもバイアス)
【まとめ】
何を主解析にすべきか?は理論上ははっきりしていて、欠測メカニズム次第ということになります。でも、現実的なところ欠測メカニズムはそもそも欠測してるんだからわかるわけない。多分こうだよね~と想像しつつ、一番ましな方法に落ち着くしかないです。というわけで、個人的な最適解は主解析をCCA / (できるだけ頑張った)MIAを感度解析だと考えています。ぶっちゃけ解析方法はCCAかMIAの2択ですし、「MARで欠測理由となる情報が全て利用できる」なんて無理…ですのでこれが一番素直かなと。
【コメント】
考えれば考えるほど、じゃーどうしたらええねん!と迷子になります。でもそうなんだから仕方ない。「Nを増やす偽装工作の意図で欠測は見て見ぬフリ」もしくは「欠測の存在を考えてすらいない」でTable1のN数と解析のN数が異なる論文はそこそこの雑誌でもよく見かけます。多変量解析に使用した変数だけでMIして、どうだMIAだぞ!と結果を主解析にもってくる論文も実は結構ムリ通してます。何が正しいかはわかりませんが、信念もって研究しなきゃなぁと思う今日この頃。という真面目な話はこのへんにして、この査読者、自分がわかってないの解析のせいにして統計家に相談しろとかほんとひどいっす…
コメント