本文介绍基于均差估值的二变量Meta-分析的未知不相等方差模型,通过极大似然估计法给出效应量及方差估计,进而得到各研究均值效应量协方差矩阵的估计量。然后,通过基于均差效应量二变量Meta-分析的固定效应模型给出了合并均差统计量D overall的具体形式和权重。进而得到了D overall的协方差矩阵和两个变量的(1-α)100%置信区间。 This paper introduces the unknown unequal variance model of bivariate meta-analysis based on the difference mean; we obtain the maximum likelihood estimator of the difference mean effect and unknown variances. Then we find the combining overall difference mean effect D overall by the fixed-effect model of bivariate Meta-analysis based on the difference mean. Moreover, we obtain the corresponding covariance matrix and the (1-α)100% confidence interval for the overall dif-ference mean effect D overall.
郭鹏飞1,2,3,李刚4*,孙向茹5
1仲恺农业工程学院,计算科学学院,广东 广州
2仲恺农业工程学院,广东省高校智慧农业工程研究中心,广东 广州
3仲恺农业工程学院,广东省水禽健康养殖重点实验室,广东 广州
4广州市电子政务服务中心,广东 广州
5番禺何贤纪念医院,生殖医学科,广东 广州
收稿日期:2019年1月15日;录用日期:2019年2月5日;发布日期:2019年2月12日
本文介绍基于均差估值的二变量Meta-分析的未知不相等方差模型,通过极大似然估计法给出效应量及方差估计,进而得到各研究均值效应量协方差矩阵的估计量。然后,通过基于均差效应量二变量Meta-分析的固定效应模型给出了合并均差统计量 D o v e r a l l 的具体形式和权重。进而得到了 D o v e r a l l 的协方差矩阵和两个变量的 ( 1 − α ) 1 0 0 % 置信区间。
关键词 :Meta-分析,未知不相等方差模型,极大似然估计
Copyright © 2019 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
Meta-分析回答了一个非常广为接受的问题和设计。即什么是研究的目标?在一个广泛的整体中研究的目标是否能够得到确认?什么是研究结果的可操作定义:试验样本组还是研究对象的总体?什么样类型的设计在搜索过程中是需要包括的?只有检验研究假设的随机试验可以作为纳入文献?非试验的研究是否可以作为纳入文献?上述这些问题的答案影响了一般综述的方法,统计推断的模式和研究结果的解释。
Meta-分析是一种对同一问题的不同研究进行定量合并的一种方法。针对具体问题的Meta-分析及其统计方法研究已持续了一个世纪之久。最早是在1904年Karl Pearson针对伤寒疫苗效果进行了合并研究 [
尽管Meta-分析在很多领域都有较好的应用,但针对Meta-分析本身的统计方法研究与其应用研究相比较少。从应用的意义上来讲,Meta-分析是以估计量的标准误差为权重的点估计加权平均。通过选择 Meta-分析两个合理假设(该假设对于每一个研究作为独立先验信息存在)中的一个来合并公共定量信息估计,从而选择合并共同定量信息的估计模型:固定效应模型和随机效应模型。固定效应模型的Meta-分析依赖于假设各个研究具有相等效应量,具体是以估计量方差的逆作为权重给出的加权平均效应量 [
在具体应用中,建立统计模型解决上述挑战中的问题是非常重要的事情。例如:在临床医学中,目前对于流行病学的Meta-分析研究主要集中在单变量Meta-分析。由于流行病(例如:非霍其因淋巴瘤,乙/丙肝等)本身的致病原因很复杂、致病原因之间具有相关性,且前期检查也是多指标检验,因此单变量Meta-分析给出的效应量并不能完全地描述流行病的致病机理。由此,希望展开对流行病学的多变量Meta-分析研究。多变量Meta-分析有很多优点:第一,可以在一个模型框架下得到所有效应量的估计量;第二,可以通过所有效应量的估计量的协方差矩阵描述多效应量之间的关系。第三,我们可以获得具有更好统计特性的参数估计量;第四,可以获得区别于单变量Meta-分析的潜在机理原因;第五,多变量分析的方法可以在一定程度上降低纳入文献的偏倚性。
由于多变量Meta-分析的诸多优点,针对多变量Meta-分析的理论研究也在不断深入。1988年,Raudenbush SW等人为了研究教练在SAT中的作用,通过广义最小二乘法建立了多效应量合并的模型 [
本文通过极大似然估计法给出效应量及方差估计且得到各研究均值效应量协方差矩阵的估计量;然后,通过基于均差效应量二变量Meta-分析的固定效应模型给出了合并均差统计量 D overall 的具体形式和权重。建立了基于均差估值的二变量Meta-分析的未知不相等方差模型并给出了 D overall 的协方差矩阵和两个变量的 ( 1 − α ) 100 % 置信区间。
在协方差矩阵的基于均差估值的二变量Meta-分析的未知不相等方差模型中,假设个体量 X i 1 j C , X i 1 j T , X i 2 j C 和 X i 2 j T 是独立的并且是正态分布,其均值分别为 μ 1 C , μ 1 T , μ 2 C 和 μ 2 T 。假设两个变量研究的方差分别为 σ C 2 , σ T 2 , τ C 2 , τ T 2 。因此 X ¯ i 1 C , X ¯ i 1 T , X ¯ i 2 C 和 X ¯ i 2 T 是独立的且服从正态分布,其均值分别为 μ 1 C , μ 1 T , μ 2 C 和 μ 2 T ,方差分别为 σ C 2 n i 1 C , σ T 2 n i 1 T , τ C 2 n i 2 C , τ T 2 n i 2 T 。假设两个变量之间的关系是相互独立的。
由上述假设,可以得到均差效应量 D i 的分布为:
D i = ( D i 1 D i 2 ) ~ N ( ( μ 1 μ 2 ) , ( σ C 2 w i 1 C + σ T 2 w i 1 T 0 0 τ C 2 w i 2 C + τ T 2 w i 2 T ) )
其中 μ 1 = μ 1 T − μ 1 C , μ 2 = μ 2 T − μ 2 C 为均值, w i 1 T = 1 n i 1 T , w i 1 C = 1 n i 1 C , w i 2 T = 1 n i 2 T , w i 2 C = 1 n i 2 C 是非随机的。一般地, μ 1 , μ 2 为未知参数。接下来通过极大似然估计法来估计 μ 1 C , μ 1 T , μ 2 C , μ 2 T 。假设操作组和对照组是相互独立的,记 S i = S i C + S i T ,其中 S i C = ( σ C 2 w i 1 C 0 0 τ C 2 w i 2 C ) , S i T = ( σ T 2 w i 1 T 0 0 τ T 2 w i 2 T ) 。
根据之前的假设效应量 D i 服从正态分布且每个研究的操作组和对照组是独立的,因此关于 μ C , μ T , σ C 2 , σ T 2 , τ C 2 , τ T 2 的似然函数为:
L ( μ , D i , S i ) = L ( μ C , X ¯ i C , S i C ) L ( μ T , X ¯ i T , S i T ) = ∏ i = 1 k 1 2 π d e t ( S i C ) 1 2 exp { − ( X ¯ i C − μ C ) T ( S i C ) − 1 ( X ¯ i C − μ C ) 2 } ⋅ ∏ i = 1 k 1 2 π d e t ( S i T ) 1 2 exp { − ( X ¯ i T − μ T ) T ( S i T ) − 1 ( X ¯ i T − μ T ) 2 }
其中 μ C = ( μ 1 C μ 2 C ) , μ T = ( μ 1 T μ 2 T ) , S i C = ( σ C 2 w i 1 C 0 0 τ C 2 w i 2 C ) , S i T = ( σ T 2 w i 1 T 0 0 τ T 2 w i 2 T ) 。由操作组和对照组的独立性,可以分别计算其极大似然估计。操作组和对照组所对应的对数似然函数分别为:
L ( μ C , X ¯ i C , S i C ) = − k ln ( 2π ) − 1 2 ∑ i = 1 k ln [ d e t ( S i C ) ] − 1 2 ∑ i = 1 k ( X ¯ i C − μ C ) T ( S i C ) − 1 ( X ¯ i C − μ C ) 2 ,
L ( μ T , X ¯ i T , S i T ) = − k ln ( 2π ) − 1 2 ∑ i = 1 k ln [ d e t ( S i T ) ] − 1 2 ∑ i = 1 k ( X ¯ i T − μ T ) T ( S i T ) − 1 ( X ¯ i T − μ T ) 2 .
因为操作组和对照组所对应的对数似然函数与基于均差估计二变量Meta-分析的未知相等方差模型中的似然函数相同,因此通过类似的计算可以给出参数 μ C , μ T , σ C 2 , σ T 2 , τ C 2 , τ T 2 的极大似然估计量及其部分性质;
定理3.1:设效应量 D i 服从 N ( ( μ 1 μ 2 ) , ( σ C 2 w i 1 C + σ T 2 w i 1 T 0 0 τ C 2 w i 2 C + τ T 2 w i 2 T ) ) 的正态分布,则
1) μ 的极大似然估计量的分量为:
μ ^ 1 = μ ^ 1 T − μ ^ 1 C = ∑ i = 1 k X ¯ i 1 T w i 1 T ∑ i = 1 k 1 w i 1 T − ∑ i = 1 k X ¯ i 1 C w i 1 C ∑ i = 1 k 1 w i 1 C , μ ^ 2 = μ ^ 2 T − μ ^ 2 C = ∑ i = 1 k X ¯ i 2 T w i 2 T ∑ i = 1 k 1 w i 2 T − ∑ i = 1 k X ¯ i 2 C w i 2 C ∑ i = 1 k 1 w i 2 C .
2) σ 2 , τ 2 的极大似然估计量分别为:
σ ^ C M L 2 = 1 k ∑ i = 1 k ( X ¯ i 1 C − μ ^ 1 C ) 2 w i 1 C , τ ^ C M L 2 = 1 k ∑ i = 1 k ( X ¯ i 2 C − μ ^ 1 C ) 2 w i 2 C ;
σ ^ T M L 2 = 1 k ∑ i = 1 k ( X ¯ i 1 T − μ ^ 1 T ) 2 w i 1 C , τ ^ T M L 2 = 1 k ∑ i = 1 k ( X ¯ i 2 T − μ ^ 1 T ) 2 w i 2 T .
由上述知,效应量满足正态分布合并效应量均值估计量分量的具体形式,可以得到合并效应量均值估计量的如下性质:
性质3.1:设效应量 D i 服从 N ( ( μ 1 μ 2 ) , ( σ C 2 w i 1 C + σ T 2 w i 1 T 0 0 τ C 2 w i 2 C + τ T 2 w i 2 T ) ) 的正态分布,那么 μ 的极大似然估计量的分量为:
μ ^ 1 = μ ^ 1 T − μ ^ 1 C = ∑ i = 1 k X ¯ i 1 T w i 1 T ∑ i = 1 k 1 w i 1 T − ∑ i = 1 k X ¯ i 1 C w i 1 C ∑ i = 1 k 1 w i 1 C , μ ^ 2 = μ ^ 2 T − μ ^ 2 C = ∑ i = 1 k X ¯ i 2 T w i 2 T ∑ i = 1 k 1 w i 2 T − ∑ i = 1 k X ¯ i 2 C w i 2 C ∑ i = 1 k 1 w i 2 C .
则 μ ^ M L 对于 μ 是无偏的。
证明:要证明估计量的无偏性,需证等式 E ( μ ^ M L ) = μ 成立。根据我们给出的效应量 D i 服从正态分布的合并效应量均值估计量分量的具体形式,我们需要证明 E ( μ ^ 1 T − μ ^ 1 C ) = μ 1 T − μ 1 C , E ( μ ^ 2 T − μ ^ 2 C ) = μ 2 T − μ 2 C 。因为 E ( X ¯ i 1 C ) = μ 1 C , E ( X ¯ i 1 T ) = μ 1 T , E ( X ¯ i 2 C ) = μ 2 C , E ( X ¯ i 2 T ) = μ 2 T ,所以
E ( μ ^ 1 T − μ ^ 1 C ) = E { ∑ i = 1 k X ¯ i 1 T w i 1 T ∑ i = 1 k 1 w i 1 T − ∑ i = 1 k X ¯ i 1 C w i 1 C ∑ i = 1 k 1 w i 1 C } = E { ∑ i = 1 k X ¯ i 1 T w i 1 T ∑ i = 1 k 1 w i 1 T } − E { ∑ i = 1 k X ¯ i 1 C w i 1 C ∑ i = 1 k 1 w i 1 C } = ∑ i = 1 k E { X ¯ i 1 T } w i 1 T ∑ i = 1 k 1 w i 1 T − ∑ i = 1 k E { X ¯ i 1 C } w i 1 C ∑ i = 1 k 1 w i 1 C = ∑ i = 1 k μ 1 T w i 1 T ∑ i = 1 k 1 w i 1 T − ∑ i = 1 k μ 1 C w i 1 C ∑ i = 1 k 1 w i 1 C = μ 1 T − μ 1 C
E ( μ ^ 2 T − μ ^ 2 C ) = E { ∑ i = 1 k X ¯ i 2 T w i 2 T ∑ i = 1 k 1 w i 2 T − ∑ i = 1 k X ¯ i 2 C w i 1 C ∑ i = 1 k 1 w i 2 C } = E { ∑ i = 1 k X ¯ i 2 T w i 2 T ∑ i = 1 k 1 w i 2 T } − E { ∑ i = 1 k X ¯ i 2 C w i 2 C ∑ i = 1 k 1 w i 2 C } = ∑ i = 1 k E { X ¯ i 2 T } w i 2 T ∑ i = 1 k 1 w i 2 T − ∑ i = 1 k E { X ¯ i 2 C } w i 2 C ∑ i = 1 k 1 w i 2 C = ∑ i = 1 k μ 1 T w i 2 T ∑ i = 1 k 1 w i 2 T − ∑ i = 1 k μ 1 C w i 2 C ∑ i = 1 k 1 w i 2 C = μ 2 T − μ 2 C
综上所述, μ ^ M L 对于 μ 是无偏的。
假设所以的研究都提供所有的均值效应。由多变量统计学的大数定理,合并效应量均值估计量可以近似为一个多元正态分布,其对应的协方差矩阵可由下面的定理给出:
定理4.1:设效应量 D i 服从 N ( ( μ 1 μ 2 ) , ( σ C 2 w i 1 C + σ T 2 w i 1 T 0 0 τ C 2 w i 2 C + τ T 2 w i 2 T ) ) 的正态分布,那么 μ 的合并均值效应量极大似然估计量为:
μ ^ 1 = μ ^ 1 T − μ ^ 1 C = ∑ i = 1 k X ¯ i 1 T w i 1 T ∑ i = 1 k 1 w i 1 T − ∑ i = 1 k X ¯ i 1 C w i 1 C ∑ i = 1 k 1 w i 1 C , μ ^ 2 = μ ^ 2 T − μ ^ 2 C = ∑ i = 1 k X ¯ i 2 T w i 2 T ∑ i = 1 k 1 w i 2 T − ∑ i = 1 k X ¯ i 2 C w i 2 C ∑ i = 1 k 1 w i 2 C .
则 μ ^ M L 所对应的协方差矩阵 V a r ( μ ^ M L ) 为:
V a r ( μ ^ M L ) = ( σ C 2 ∑ i = 1 k 1 w i 1 C + σ T 2 ∑ i = 1 k 1 w i 1 T 0 0 τ C 2 ∑ i = 1 k 1 w i 2 C + τ T 2 ∑ i = 1 k 1 w i 2 T )
通过合并均值效应量极大似然估计量 μ ^ M L 所对应的协方差矩阵 V a r ( μ ^ M L ) 可以给出 μ ^ M L 的如下性质:
性质4.1:设效应量 D i 服从 N ( ( μ 1 μ 2 ) , ( σ C 2 w i 1 C + σ T 2 w i 1 T 0 0 τ C 2 w i 2 C + τ T 2 w i 2 T ) ) 的正态分布, μ 的合并均值效应量极大似然估计量为:
μ ^ 1 = μ ^ 1 T − μ ^ 1 C = ∑ i = 1 k X ¯ i 1 T w i 1 T ∑ i = 1 k 1 w i 1 T − ∑ i = 1 k X ¯ i 1 C w i 1 C ∑ i = 1 k 1 w i 1 C , μ ^ 2 = μ ^ 2 T − μ ^ 2 C = ∑ i = 1 k X ¯ i 2 T w i 2 T ∑ i = 1 k 1 w i 2 T − ∑ i = 1 k X ¯ i 2 C w i 2 C ∑ i = 1 k 1 w i 2 C .
则 μ ^ M L 对于 μ 是一致的。
在上述研究中,效应量用的是均差。因此可以给出均值效应量 D i 的协方差估计为: S ^ i M L = ( σ ^ C M L 2 w i 1 C + σ ^ T M L 2 w i 1 T 0 0 τ ^ C M L 2 w i 2 C + τ ^ T M L 2 w i 2 T ) 。
在Meta-分析中,合并统计量是由具体研究表现统计量的加权平均给出的。根据均差估计二变量Meta-分析的固定效应模型可知,通过 S ^ i M L 可以给出每一个研究的权重及均差合并统计量。具体如下:
1) 对于均值合并统计量,每个研究均差的权重为:
ν i = ( ∑ i = 1 k S ^ i M L − 1 ) − 1 S ^ i M L − 1 = ( 1 σ ^ C M L 2 w i 1 C + σ ^ T M L 2 w i 1 T ∑ i = 1 k 1 σ ^ C M L 2 w i 1 C + σ ^ T M L 2 w i 1 T 0 0 1 τ ^ C M L 2 w i 2 C + τ ^ T M L 2 w i 2 T ∑ i = 1 k 1 τ ^ C M L 2 w i 2 C + τ ^ T M L 2 w i 2 T )
注意到权重 ν i 只与个体研究的样本量有关并且是非随机的。
2) 整体均值合并统计量的估计量为:
D overall = ∑ i = 1 k D i ν i = ( X ¯ i 1 T − X ¯ i 1 C σ ^ C M L 2 w i 1 C + σ ^ T M L 2 w i 1 T ∑ i = 1 k 1 σ ^ C M L 2 w i 1 C + σ ^ T M L 2 w i 1 T X ¯ i 1 T − X ¯ i 1 C σ ^ C M L 2 w i 1 C + σ ^ T M L 2 w i 1 T ∑ i = 1 k 1 σ ^ C M L 2 w i 1 C + σ ^ T M L 2 w i 1 T )
通过 D overall ,可以得到 D overall 的协方差阵的估计量为:
通过 D overall 所对应的协方差矩阵 V a r ( D overall ) 可以给出单变量和联合变量的置信区域,其具体形式为:
性质5.1:设效应量 D i 服从 N ( ( μ 1 μ 2 ) , ( σ C 2 w i 1 C + σ T 2 w i 1 T 0 0 τ C 2 w i 2 C + τ T 2 w i 2 T ) ) 的正态分布, μ 的合并均值效应量极大似然估计量为:
μ ^ 1 = μ ^ 1 T − μ ^ 1 C = ∑ i = 1 k X ¯ i 1 T w i 1 T ∑ i = 1 k 1 w i 1 T − ∑ i = 1 k X ¯ i 1 C w i 1 C ∑ i = 1 k 1 w i 1 C , μ ^ 2 = μ ^ 2 T − μ ^ 2 C = ∑ i = 1 k X ¯ i 2 T w i 2 T ∑ i = 1 k 1 w i 2 T − ∑ i = 1 k X ¯ i 2 C w i 2 C ∑ i = 1 k 1 w i 2 C .
则合并均值效应量 μ ^ M L 所对应各个分量的 ( 1 − α ) 100 % 置信区间为: ( μ 1 − Z α 2 V a r ( D overall ) ( 1 , 1 ) , μ 1 + Z α 2 V a r ( D overall ) ( 1 , 1 ) ) 和 ( μ 2 − Z α 2 V a r ( D overall ) ( 2 , 2 ) , μ 2 + Z α 2 V a r ( D overall ) ( 2 , 2 ) ) ,其中 Z α 2 表示正态分布的 α 2 分位数, V a r ( D overall ) ( i , j ) 表示矩阵 V a r ( D overall ) 第i行第j列的分量。
本文通过极大似然估计法给出效应量及方差估计,进而得到各研究均值效应量协方差矩阵的估计量。然后,由基于均差效应量二变量Meta-分析的固定效应模型给出了合并均差统计量 D overall 的具体形式和权重,构建了基于均差估值的二变量Meta-分析的未知不相等方差模型,进而得到了 D overall 的协方差矩阵和两个变量的 ( 1 − α ) 100 % 置信区间。本文的结果对流行病学的研究有着重要的统计学意义。
本项目由如下基金支持:国家自然科学基金(61871475, 61471133, 61571444, 61473331),广东省科技计划(2017B010126001, 2017A070712019, 2016A040402043, 2015A070709015, 2015A020209171, 2016B010125004, 2014B040404070, 2015A040405014, 2016A070712020),广东省教育厅科技计划 (2017GCZX001, 2016GCZX001, 2017KTSCX094, 2017KTSCX095, 2017KQNCX098),广州市科技计划 (201707010221)。
郭鹏飞,李刚,孙向茹. 基于均差估计二变量Meta-分析的未知不相等方差模型The Unknown Unequal Variance Model of Bivariate Meta-Analysis Based on the Difference Mean[J]. 运筹与模糊学, 2019, 09(01): 72-79. https://doi.org/10.12677/ORF.2019.91009