超幾何分布から信頼下限を決める

2022/01/11 18:19

・　2×2表を超幾何分布から考える.
　2×2表では、生起因子曝露に対する観察発生数　94ほか（観光船事例）４つの数値が得られる.
　事例のなかで、発生数m、暴露数（抽出数）k、非発生数ｎの3つの数値があれば、超幾何分布を用いて、抽出数に応じた、起こるべきばらつきを再現できる.
　生起因子についてヒストグラムをながめると、この事例では発生率がほぼ0.5にあるため、ばらつきは左右同じ程度である.計算すると、下のようである.
　　　　　Vx = 8.26
　　　　　sd = 2.87

・ちなみに発生率が極端に低い（高い）と、超幾何分布の形は、左右非対称の度合いがめだつ.
　正規分布なら、15.9%を占めるところと、84.1%を占めるところのxは平均μに対して±σのところであり、左右同じであって、また、公式から計算もできる.尤度推定された係数に基づく確率は、発生率が低いとき、例えば、1、+2といったぐあいに、裾野が右に伸びる.

・　さて、超幾何分布は、事例の自然なばらつきを示すものととらえると、その0.95を占めるところのx；x95は、モデリングの生起因子の効果である、率を拘束することになる.これにより、推定係数の有意性は超幾何分布により決めることができる.つまり、自動計算されたモデルの係数のseを疑ってかかるのである.

　実際、モデリングにより得た生起因子の係数β1とse、切片β。から、

　玉子焼きの係数の信頼区間(95%)下限　：
　　　　　　　　　2.652　-　2*0.6182　＝　1.415 　---　①

　　　　　　　　　　　　　　　　　　　　（1因子モデルとして）　　　　
　となる.　同様に上限を計算し、ll,ave,ul の順で並べると、1.415 , 2.652 , 3.888 となる.
　一方、x95から

　　　　qhyper（0.95,97,122,178,log=FALSE) = 84
  　　　 β。+ β95 = ln(84) - ln(k-84)
   　　　　　 β95 = -0.112 + 2.539 　　　　　　（β。をモデリング推定から借用）
                                = 2.427　　--------------------------------- 　②

　となり、上限も計算して並べると、　　　2.199 , 2.314 , 2.427　となる.
　同一危険率でCIの幅を比べる.超幾何関数を使った方は、係数のばらつきがごく小さく、範囲が狭い.

　｛ここで、β。をモデルから借用し、固定値とした.これは因子の係数のばらつきには影響しない.なぜなら、β。は、因子の効果や、その曝露状況には関係せず、また、クロステーブルでは総数こそ小さいが、コホートのバックグラウンドであるため、統計的バラつきを無視できるからである.モデリング（最尤推定）では、厳密にはβ。とβiが関係してしまうことがあるが、別の理由による.｝

　超幾何分布から考えて、その要求される係数の下限β95　②は、モデルが示す信頼区間下限　①より、かなり”狭い”範囲で係数を知らせるということになる.

　元記事2017

morの解析ブログ

解析疫学、リスクにまつわるメモや計算

超幾何分布から信頼下限を決める