超幾何分布から信頼下限を決める
・ 2×2表を超幾何分布から考える.
2×2表では、生起因子曝露に対する観察発生数 94ほか(観光船事例)4つの数値が得られる.
事例のなかで、発生数m、暴露数(抽出数)k、非発生数nの3つの数値があれば、超幾何分布を用いて、抽出数に応じた、起こるべきばらつきを再現できる.
生起因子についてヒストグラムをながめると、この事例では発生率がほぼ0.5にあるため、ばらつきは左右同じ程度である.計算すると、下のようである.
Vx = 8.26
sd = 2.87
・ちなみに発生率が極端に低い(高い)と、超幾何分布の形は、左右非対称の度合いがめだつ.
正規分布なら、15.9%を占めるところと、84.1%を占めるところのxは平均μに対して±σのところであり、左右同じであって、また、公式から計算もできる.尤度推定された係数に基づく確率は、発生率が低いとき、例えば、1、+2といったぐあいに、裾野が右に伸びる.
・ さて、超幾何分布は、事例の自然なばらつきを示すものととらえると、その0.95を占めるところのx;x95は、モデリングの生起因子の効果である、率を拘束することになる.これにより、推定係数の有意性は超幾何分布により決めることができる.つまり、自動計算されたモデルの係数のseを疑ってかかるのである.
実際、モデリングにより得た生起因子の係数β1とse、切片β。から、
玉子焼きの係数の信頼区間(95%)下限 :
2.652 - 2*0.6182 = 1.415 --- ①
(1因子モデルとして)
となる. 同様に上限を計算し、ll,ave,ul の順で並べると、1.415 , 2.652 , 3.888 となる.
一方、x95から
qhyper(0.95,97,122,178,log=FALSE) = 84
β。+ β95 = ln(84) - ln(k-84)
β95 = -0.112 + 2.539 (β。をモデリング推定から借用)
= 2.427 --------------------------------- ②
となり、上限も計算して並べると、 2.199 , 2.314 , 2.427 となる.
同一危険率でCIの幅を比べる.超幾何関数を使った方は、係数のばらつきがごく小さく、範囲が狭い.
{ここで、β。をモデルから借用し、固定値とした.これは因子の係数のばらつきには影響しない.なぜなら、β。は、因子の効果や、その曝露状況には関係せず、また、クロステーブルでは総数こそ小さいが、コホートのバックグラウンドであるため、統計的バラつきを無視できるからである.モデリング(最尤推定)では、厳密にはβ。とβiが関係してしまうことがあるが、別の理由による.}
超幾何分布から考えて、その要求される係数の下限β95 ②は、モデルが示す信頼区間下限 ①より、かなり”狭い”範囲で係数を知らせるということになる.
元記事2017