附录五 分析流行病学有关计算
(一)OR、OR[XB]MH[/XB]的可信限和OR[XB]i[/XB]的齐性检验
⒈Miettinen法 即是以显着性检验为基础的(test-based)可信限。计算OR[XB]MH[/XB]的100(1-α)%可信限公式
此公式同样可用于计算单个OR(即从一张四格表数据算出的OR)的可信限。这时,上式中用OR代替ORMH,用x[SB]2[/SB]代替X[SB]2[/SB][XB]Mh[/XB]。匹配数据的OR也可同样计算。用函数型电子计算器来算,都很简单。
式中的U,可查标准正态差简表(附表5-1),U[XB]α/2[/XB]可查α/2单侧检验的U[XB]α[/XB]值。最常用的95%可信限按下式计算(上限记为OR[XB]U[/XB],或OR,下限记为OR[XB]L[/XB]或OR):
附录5-1 标准正态差简表
α(或β) | 单侧检验时U[XB]α[/XB](或U[XB]β[/XB][SB]*[/SB]) | 双侧检验时U[XB]α[/XB] |
0.001 | 3.09 | 3.29 |
0.005 | 2.58 | 2.81 |
0.010 | 2.33 | 2.58 |
0.025 | 1.96 | 2.24 |
0.05 | 1.64 | 1.96 |
0.10 | 1.28 | 1.64 |
0.20 | 0.84 | 1.28 |
0.30 | 0.52 | 1.04 |
* 双侧检验时U[XB]β[/XB]值与单侧检验时相同
计算实例:表4-4的数据,OR[XB]MH[/XB]=5.55,x[SB]2[/SB][XB]MH[/XB]=76.84,95%可信限:
2. Woolf法 即自然对数转换法
(1)首先把OR转移为自然对数,记为lnOR;
(2)按下式求出lnOR的方差,记为Vαr(lnOR):
即四格表中每一格数值的倒数之和。倘有某一格的数值为0时,可在每格的数值上各加0.5,再求出它们的倒数之和。
⑶lnOR的100(1-α)%可信限为
如为求95%可信限,上面两式中U[XB]α/2[/XB]=1.96;
(4)最后各取其反对数(e[SB]X[/SB]),即为OR的可信限。
(5)也可直接用下式算可信限:
以上都是用于计算不分层OR(粗OR)的公式,如为分层的数据也可用Woolf法计算各层lnOR[XB]i[/XB]的加权平均数及其可信限;同时可检验各层OR[XB]i[/XB]是否有齐性,即是否没有显著差异,倘有齐性,计算总的OR才有意义。
计算实例:仍用表4-4的数据,用公式(附式5-4)与(附式5-5)分别算出吸烟者与不吸烟者两层中饮酒与食管癌的OR及其对数(lnOR)以及lnOR的方差和方差的倒数(w[XB]i[/XB]权重),结果列表如下:
总的OR用下式计算:
将上表数据代入:
结果与OR[XB]MH[/XB](5.55)相当接近。再按下式求OR的标准误:
(附式5-9)
得S[XB]x[/XB](lnOR)=0.2169,于是lnOR的95%可信限lnOR±1.96S[XB]x[/XB],代入得2.09,1.24,于是
与OR[XB]MH[/XB]的95%可信限(8.09,3.81)也十分接近。
但是各层的OR[XB]i[/XB]相关悬殊,或即吸烟者与不吸烟者中饮酒与食管癌联系强度差异较大,这种差异是随机变异的机会有多大?可以用下式作x[SB]2[/SB]检验:
(附式5-10)
式中k=层数,自由度=k-1。
代入本例数据,x[SB]2[/SB]=5.06,5.06>x[SB]2[/SB](1,0.025),p<0.025,各层间的OR差异显著,来自同一总体的可能性很小,所以总的OR不能说明吸烟、饮酒与食管癌的联系,因此是无意义的。
上述x[SB]2[/SB]检验同时可用来检验各因素间是否存在交互作用。本例的结果提示吸烟与饮食这两个因子与食管癌危险度的联系有交互作用。
以上两种方法算得的都是似可信限,但在OR靠近无效值⑴的情况下,特别是在样本较大时,近似法与精确法所得结果十分接近。
⒊ 匹配数据的OR可信限
可用Miettinen法〔以显著性检验为基础的方法,公式(附式5-1)〕,实例见第四章表4-11的数据分析。还可用下述方法:
(1)先算方差:
(2)OR 的(1-α)%可信限
计算实例:仍用表4-11的数据,计算OR的95%可信限。U[XB]α/2[/XB]=1.96,OR=1.71,Var(lnOR)=(60+35)/(60×35)=0.0452,
结果与用公式(附式5-1)算得的(1.14,2.57)很接近,而且理论上更恰当。
(二)病例对照研究样本含量的估计
所谓样本含量估计是指在满足一定条件下的一个粗略估计数;条件变动时估计数会随之发生变化,所以只有相对意义,而不能看作是保证可达到目的的准确数值。
样本含量(n)的估计须根据①对照人群的预防暴露率,p0;②暴露与疾病的联系程度,以RR为指标;③假阳性率,即Ⅰ型误差,α;④假阳性率,即Ⅱ型误差,β。
1.非匹配设计病例数与对照数相等时每组所需人数
式中P[XB]1[/XB]=P[XB]0[/XB]RR/[1+P[XB]0[/XB](RR-1)],p=0.5(P[XB]1[/XB]+P[XB]0[/XB]),q=1-P[XB]0[/XB]。U[XB]α[/XB]与U[XB]β[/XB]可查附表5-1。有时也可不用公式,通过查表即可得n,例如附表5-2。
附表5-2 病例对照研究样本含量(非匹配,病例组与
对照组人数相等时每组需要人数)
α=0.05(双侧),β=0.10 | ||||||||||||
RR | p[XB]0[/XB] | |||||||||||
0.01 | 0.05 | 0.1 | 0.2 | 0.4 | 0.5 | 0.6 | 0.8 | 0.9 | ||||
0.1 | 1420 | 279 | 137 | 66 | 31 | 24 | 20 | 18 | 23 | |||
0.5 | 6323 | 1286 | 658 | 347 | 203 | 182 | 176 | 229 | 378 | |||
2.0 | 3206 | 689 | 378 | 229 | 176 | 182 | 203 | 347 | 658 | |||
3.0 | 1074 | 236 | 133 | 85 | 71 | 77 | 89 | 163 | 319 | |||
4.0 | 599 | 134 | 77 | 51 | 46 | 51 | 61 | 117 | 232 | |||
5.0 | 406 | 92 | 54 | 37 | 35 | 40 | 48 | 96 | 194 | |||
10.0 | 150 | 36 | 23 | 18 | 20 | 24 | 31 | 66 | 137 | |||
20.0 | 56 | 18 | 12 | 11 | 14 | 18 | 24 | 54 | 115 | |||
(节录:Schlesselman,1982)
例:现拟进行一项病例对照调查,研究吸烟与肺癌的关系。预期吸烟者的相对危险度为10.0,人群吸烟率约0.4。设定α=0.05(双侧检验),β=0.10,查表可见至少需病例与对照各20。样本较小是因RR很大。如用公式(附式5-14)计算,得数也相近,(n≈22),稍有出入是计算时保留小数位数不同所致。
在α=0.05(双侧检验)时,U[XB]a=1.96,β=0.10,Uβ=1.28,于是式(附式5-14)可简化为[/XB]
[XB][/XB]
2. 非匹配设计病例数与对照数不等时
设:病例数:对照数1:c,则需要的病例数
式中,
,P1的计算同公式(附5-14)
对照数=cn。
3. 1:1匹配(配对)设计 须加估计的不是总例数而是病例与对照暴露情况不同的对子数(即表4-10中的f10与f01),设为m,则
式中PRR/(1+RR)。
需要的总对数(f11+f10+f01+f00)设为M,则
式中p1=p0RR/﹝1+p0(RR-1)﹞,q1=1-p1,q0=1-p0
例:设对照暴露率p0=0.3,α=0.05,β=0.1,为检出RR=2需要的
m=[1.96/2+1.28186,即共需f10+f01=90对,总对数=186。
(三)队列研究与实验性研究样本含量估计
实验性研究与队列研究有许多共同之处,所以对其样本含量的估计一并介绍。
1.队列研究样本含量 这里只有计数资料的样本含量估计。应用公式计算时,必须对暴露(在实验性研究为处理)预期造成的与对照组的差别有一个估计数(下式中p0为未暴露组的事件发生比例;p1为暴露组的事件发生比例),这个估计数来自经验或理论,并规定Ⅰ型或Ⅱ型误差的概率(α与β)。
此为公式(附式5-14)的原式,(附式5-14)是其简化式,符号的意义两式相同。实验性研究有时样本较小,应用本式时要求事件发生比例两组均≥0.2,≤0.8。
2.实验性研究 除公式(附式5-18)外,还可用率的反正弦转换法,适用于事件发生率在0.05~0.95之间,单侧检验。如作双侧检验,可用α/2代替式中的α。
(1)实验组人数(nt)与对照组的人数(nc)相等。
nt=nc,
式中pc=对照组假定的事件发生率
pt=试验组假定的事件发生率。
Uα,Uβ值查附表5-1。
(2)实验组与对照组人数不等(nt/nc≠1设为λ)
nt=λnc,N=nt+nc。有1个以上实验组时(设为Υ组),N=Υnt+nc。
上面两式中率的平方根的反正弦(sin-1或arcsin)是用弦度来表示的,可用函数型计算器的RAD方式直接计算,十分方便。
计算实例 设计条件为实验组与对照组各一,以死亡为测定的结局,随访期5年,单侧备择假设,pc=0.40(对照组5年死亡率),pc-pt=0.10,α=0.05,β=0.05,λ=1。代入式(附式5-19):
nc=491,nt=491。N(两组人数)=nc+nt=982。
但实际工作中还应考虑失访、退出、不依从等因素所造成的样本量减少,在估计时应给予适当补偿:设损失率为d,可用系数1/(1-d)乘nc,仍用上例,设d=20%,则nc=(1/0.8)×491=614,nt=614,N=1228。
此例如用公式(附式5-18)计算,得nc=490,设损失率(d)=20%,则nc=(1/0.8)×491=613,nt=613,N=1226。可见两法所得基本一致,而以反正弦转换法更为简便。
(四)从已知样本含量估计能查出的最大相对危险度
一种常见的情况是样本含量限于条件已经限定,研究者想估计一下这个样本能够以一定的把握度查出的相对危险度最大是多少(如为保护因素则为最小的相对危险度),如果与预计的相关较大,则应待样本扩大后再进行分析,以免徒劳。
可用下式估计,式中n为每组例数,p0,α,β的意义均与公式(附式5-14)相同:
式中
A=(Uα+Uβ)2
B=1+2p0
C=2p0﹝n(1-p0)-Ap0﹞