治療前後でどれだけアウトカム(連続量)が変化したか?をみる研究は多いと思います。例えば術式AとBで術後のVASを比較したり。その場合単にt検定すればいいか?というとそうではないようです。私の理解では以下3つの問題点があります。

第1の問題点:尺度の信頼性
これは言い換えると「VASで治療効果の差が検出できるか?」ということです。例えば術式Aの治療効果がVASで平均1だとします。ただ全員で1改善するかというと、実際は0.5だったり2だったり「ばらつき」ます。一方VASの測定結果自体も常に一定ではなく、誤差があります。この「治療効果のばらつき」より、「測定のばらつき」の方が小さくないと尺度としてはダメなようです。

第2の問題点:平均への回帰
手術による治療効果を比較するためには、実は「術前に調べたVASは時間が経っても一定」であることが大前提になっています。そこで問題となるのは「平均への回帰」です。VAS値自体がばらつきますので、術前にたまたま高値になった集団のVASは、手術に関係なく下がります。ランダム割付などで術前のVAS値が揃っていればいいかもしれませんが、一般的な観察研究では揃ってないことの方が多いです。なので「平均への回帰」が治療効果を修飾しているかもしれません。

第3の問題点:治療効果の意味合いの違い
治療効果はVAS10→8でも、VAS2→0でも「2」になりますが、その意味合いは同じでしょうか?どちらかが臨床的意義が高かったりはしないでしょうか。また、同じ手術でVAS10の人は7になるけど(差は3)、VAS2の人は1になる(差は1)ことはないでしょうか?言い換えると、同じ治療でも、ベースラインの重症度によって効果が異なることはないでしょうか。こちらも第2の問題点と同じで、術前のVAS値が揃っていなければ問題になるかもしれません。

こうやって考えると、変化量の比較ってタイヘンですね。ちなみにこの3つの問題点以外にも、「交絡因子」の影響もあります(とくに適応交絡)。ややこしいので今回は触れませんが。次項ではじゃあどうしたらいいか?について考えてみます。

これらのハナシは以下を読んだ自分なりの解釈です。気になる方はご自身で読んでみてください。