morの解析ブログ

解析疫学、リスクにまつわるメモや計算

「推定」のまわりをさぐる.教科書では「解析はMHにより行う、因子が多ければ重回帰を用いる」という風で詳しい例は少ない.独自(のつもり)な思いつきで具体に試行.
 数理を用いるべきアセスメントにも切り込む.

超幾何分布から信頼下限を決める

・ 2×2表を超幾何分布から考える.
 2×2表では、生起因子曝露に対する観察発生数 94ほか(観光船事例)4つの数値が得られる.
 事例のなかで、発生数m、暴露数(抽出数)k、非発生数nの3つの数値があれば、超幾何分布を用いて、抽出数に応じた、起こるべきばらつきを再現できる.
 生起因子についてヒストグラムをながめると、この事例では発生率がほぼ0.5にあるため、ばらつきは左右同じ程度である.計算すると、下のようである.
     Vx = 8.26
     sd = 2.87


 


・ちなみに発生率が極端に低い(高い)と、超幾何分布の形は、左右非対称の度合いがめだつ.
 正規分布なら、15.9%を占めるところと、84.1%を占めるところのxは平均μに対して±σのところであり、左右同じであって、また、公式から計算もできる.尤度推定された係数に基づく確率は、発生率が低いとき、例えば、1、+2といったぐあいに、裾野が右に伸びる.


・ さて、超幾何分布は、事例の自然なばらつきを示すものととらえると、その0.95を占めるところのx;x95は、モデリングの生起因子の効果である、率を拘束することになる.これにより、推定係数の有意性は超幾何分布により決めることができる.つまり、自動計算されたモデルの係数のseを疑ってかかるのである.


 実際、モデリングにより得た生起因子の係数β1とse、切片β。から、


 玉子焼きの係数の信頼区間(95%)下限 :
         2.652 - 2*0.6182 = 1.415  --- ①


                    (1因子モデルとして)    
 となる. 同様に上限を計算し、ll,ave,ul の順で並べると、1.415 , 2.652 , 3.888 となる.
 一方、x95から


    qhyper(0.95,97,122,178,log=FALSE)  =  84 
       β。+ β95  = ln(84)  - ln(k-84)
           β95  = -0.112  + 2.539       (β。をモデリング推定から借用)
                                =  2.427  ---------------------------------  ②
 
 となり、上限も計算して並べると、   2.199 , 2.314 , 2.427 となる.
 同一危険率でCIの幅を比べる.超幾何関数を使った方は、係数のばらつきがごく小さく、範囲が狭い.


 {ここで、β。をモデルから借用し、固定値とした.これは因子の係数のばらつきには影響しない.なぜなら、β。は、因子の効果や、その曝露状況には関係せず、また、クロステーブルでは総数こそ小さいが、コホートのバックグラウンドであるため、統計的バラつきを無視できるからである.モデリング(最尤推定)では、厳密にはβ。とβiが関係してしまうことがあるが、別の理由による.}


 超幾何分布から考えて、その要求される係数の下限β95 ②は、モデルが示す信頼区間下限 ①より、かなり”狭い”範囲で係数を知らせるということになる.


 元記事2017

×

非ログインユーザーとして返信する