模型选择与模型平均一直是统计学与计量经济学界研究的重要问题,本文依托Meta分析理论和方法,以分析豆科植物-根瘤菌互利共生合作系统的影响因素为例,比较模型选择与模型平均方法在Meta分析中的应用效果,结果表明模型平均方法既可应用于Meta分析中,分析效果又优于模型选择。 Model selection and model averaging have been the important issues which are researched by statistics and economic circles. This paper relies on theories and methods of Meta-analysis and takes the analysis of factors influencing legumes-rhizobium mutualism cooperative systems as an example. Then, the application results of model selection and model averaging method in meta- analysis are compared. The results show that model averaging method can be applied to meta- analysis and its performance is better than model selection.
尹潇潇
云南财经大学统计与数学学院,云南 昆明
Email: yinxiaoxiao2011@163.com
收稿日期:2015年7月27日;录用日期:2015年8月14日;发布日期:2015年8月21日
模型选择与模型平均一直是统计学与计量经济学界研究的重要问题,本文依托Meta分析理论和方法,以分析豆科植物-根瘤菌互利共生合作系统的影响因素为例,比较模型选择与模型平均方法在Meta分析中的应用效果,结果表明模型平均方法既可应用于Meta分析中,分析效果又优于模型选择。
关键词 :Meta分析,模型选择,模型平均
通过统计建模解决一个实际问题时,往往我们可以建立多个统计模型,现在面临的问题是究竟采用哪个模型分析问题的效果较好,或者是怎样将所有模型提供的信息都充分利用起来,这就涉及到模型选择和模型组合的问题了。模型选择旨在从备选模型集中选择一个最优的模型,而模型组合(即模型平均)则为了充分利用所有模型提供的信息,给每个模型赋予一定的权重将它们组合起来。这样就避免选到一个分析效果差的模型,因为通过模型选择选出来的模型未必就是效果好的,只能说在所有模型中相对较好。因此,本文以分析豆科植物–根瘤菌互利共生系统的影响因素为例,分别使用这两种方法进行分析,然后比较这种方法的研究结果,结果表明模型平均方法不仅可以应用于Meta分析,而且其分析效果优于模型选择。
很多学者通过模型选择与模型平均方法分析解决一些实际问题,如Jerald B. Johnson等[
模型选择,伴随着不确定性,它是目前利用强大的计算机及其软件更详细的去探索数据提供信息的一个实践的例子。简而言之,模型选择就是从建立的众多可能模型中选择一个最适合解决已知问题的模型。模型选择的方法有很多,如Akaike information criterion (AIC)、Schwartz’s Bayes information criterion (BIC),AIC和BIC的计算公式如(1)、(2)式:
其中k为候选模型集中模型的个数;
此外,我们还有其他模型选择的方法,如focused information criterion (FIC),FIC是通过极小化固定参数估计的均方误差(MSE)进行模型选择的,通常选择最小的MSE模型,这说明了FIC可应用于一些常见的情况下。虽然这些方法在统计学领域应用的非常普遍,但是它们也有各自的优点和缺点,一方面,通过AIC、BIC和FIC选择到一个最好的模型,我们可以利用该模型去解释数据的所有方面;另一方面,我们并不能确定所选择的模型对于一个估计好但对其他的估计效果也许会很差。因此,下面我们就介绍弥补模型选择缺陷的方法——模型平均。
模型平均,顾名思义,就是把来自不同模型的估计或者预测通过一定的权重平均起来,在一些文献中也称为模型组合,它一般包括组合估计和组合预测。事实上,模型选择是模型平均的特例,模型的权重取0或1,所以模型平均所做的估计比较稳健。模型平均的关键在于如何选取组合的权重,常用的权重选择方法有Smoothed AIC (S-AIC)、Smoothed BIC (S-BIC)、Mallow准则、Jackknife准则和OPT最优权重选择法等。下面我们简单的介绍下基于S-AIC、S-BIC以及Mallow准则的权重选择方法。本文主要运用S-AIC进行模型平均。
基于S-AIC和S-BIC准则的权重选择方法由Buckland,Burnham和Augustin (1997) [
其中k表示候选模型集中模型的个数;i代表第i个模型;
Mallow准则[
假设候选模型集中共有M个近似模型,被解释变量的实际值序列记为
其中
模型平均的Mallow准则为
其中
通过极小化(6)式就可以得到各个模型的权重,即
鉴于S-AIC的计算依靠AIC,因此,本文选择AIC进行模型选择。模型平均与模型选择相比,模型平均避免选到一个较差的模型;模型平均往往是将多个模型赋予权重组合起来,不会丢掉任何模型和遗失任何有用的信息,这样就可以充分利用所有的信息分析、解决问题;模型平均法并没有将建立的模型当作数据产生的真实过程,这样就可以保证估计或预测的准确性。模型平均方法经常被用于经济领域或其它领域做预测。
针对同一个问题,可能会有很多不同的研究结果,这就需要我们采用一定的方法整合分析所有研究结果,最终得到一个相对统一且被大家认可的结论,即Meta分析(Meta-analysis)。Meta分析是汇总多项原始研究的结果并分析评价其合并效应量的一系列过程,它依靠搜集已发表或未发表的具有某一可比性的文献,应用特定的统计学方法进行合并分析与综合评价[
第一,固定效应模型
第二,随机效应模型
若
我们常常使用Stata软件建立Meta回归模型,命令如:metareglnor factor 1,factor 2,factor 3,…,wsse (selnor);如果考虑交互效应时,命令中将交互项(interaction)添加进去即可。
本节通过Meta分析可以得到很多可能的分析模型,根据3.2中的方法,我们可以得到备选模型集中每个模型所占的权重集合即
针对同一个问题,可能得到不同甚至相左的研究结果,因此,采用Meta分析可以整合这些不同研究结果提供的信息,最终分析得到一个统一的结果。所以,通过Meta分析方法比使用其他方法得到的研究结果更为客观、全面。基于作者之前采用AIC和AICc准则进行模型选择做过豆科植物–根瘤菌互利共生合作系统的相关研究,而且AICc准则和S-AIC准则都是对AIC修正衍化得到,因此,在本文中,作者通过S-AIC权重选择准则进行模型平均分析,与AIC模型选择进行比较,这具有重要的意义。当然,在未来的研究中,我们可以通过其他模型平均方法(如S-BIC、Mallow准则等)进行研究分析,然后与S-AIC进行比较,这样可以很好的说明这些权重选择准则在模型平均方法中的应用效果。
所以,本文依托Meta分析理论和方法,收集大量豆科植物–根瘤菌互利共生合作系统研究的相关文献,根据文献中提供的二次数据建立Meta回归模型;基于AIC准则考虑模型选择问题;最后基于S-AIC准则研究Meta分析中的模型平均问题,进而据此分析豆科植物–根瘤菌互利共生系统中的影响因素。结果表明模型平均方法不但可以应用于Meta分析中,而且其分析效果优于模型选择。
本文主要通过Meta分析,建立Meta回归模型,结合模型选择与模型平均法分别研究豆科植物与根瘤菌组成的互利共生合作系统的影响因素。我们在ISI Web of Knowledge Web of Science database和谷歌学术(Google Scholar)上查询国内外学者对豆科植物–根瘤菌互利共生合作系统所做的相关研究,将查询到的文献所提供的一些信息作为Meta分析和Meta回归的实例数据。我们将可能对该合作系统造成影响的已知研究中的五个因素:宿主类型(Host Classification)、合作者类型(Cooperator genus)、施肥与否(Fertilization)、控制措施(Measured effect)和接种复杂度(Design class)分别记作X1、X2、X3、X4、X5。
根据资料提供的数据信息,我们建立Meta回归模型进行分析。除了各个单因素即主效应为可能的影响因素外,各个主效应之间的交互作用也可能对豆科植物–根瘤菌互利共生合作系统产生一定的影响。由于我们不能确定包含哪些解释变量可以得到较好的分析结果,因此,建立Meta回归模型时应将所有的主效应以及交互效应都考虑进去。用Stata软件建立Meta回归模型,探索性的建立很多模型,记录各个模型的F统计量、P值以及方差,经过筛选,最终得到51个模型。简单列举几个模型:
Model1:metareglnorX3X4X1*X4 X1*X5 X3*X4,wsse (selnor);
Model2:metareglnorX3X4X5 X1*X4 X1*X5 X3*X4,wsse (selnor);
Model3:metareglnorX2 X3X4X1*X4 X3*X4,wsse (selnor);
Model4:metareglnorX3X4X1*X4 X1*X5 X3*X4,wsse (selnor);
Model5:metareglnorX3X4X5X1*X4 X3*X4,wsse (selnor);
… … …
Model51:metareglnorX3X4X5X1*X3X1*X4,wsse(selnor)。
通过Matlab软件分别计算这51个模型的极大似然函数,再结合公式(1)计算并记录每个模型的AIC,各个模型的AIC值如表1所示。
观察表1,将所有模型的AIC值进行排序,得到AIC值最小的模型为Model2,
根据4.2得到的51个模型,每个模型含有的变量种类以及个数不同,解释效果也不同,因此,下面通过模型平均整合这些模型提供的信息进行全面分析。根据公式(4)以及4.2计算的AIC值,我们可以分别计算出各个模型所占的S-AIC权重。利用计算出的权重结果将51个模型组合起来,最终得到一个组合分析模型。S-AIC权重结果如表2所示。
通过模型平均,我们最终得到一个包含51个模型的组合模型,每个模型都有一个权重。由表2可知组合模型中权重较大且排在前五的模型有第二、第三、第四、第五和第九个,说明这五个模型在整个组合模型中的所起的解释作用最大。这五个模型的构建命令如下:
Model2:metareglnorX3X4X5 X1*X4 X1*X5 X3*X4,wsse (selnor);
Model3:metareglnorX2 X3X4X1*X4 X3*X4,wsse (selnor);
Model4:metareglnorX3X4X1*X4 X1*X5 X3*X4,wsse (selnor);
Model5:metareglnorX3X4X5X1*X4 X3*X4,wsse (selnor);
Model9:metareglnorX3X4X1*X4 X3*X4,wsse (selnor);
模型序数 | AIC | 模型序数 | AIC | 模型序数 | AIC |
---|---|---|---|---|---|
1 | 62.6 | 18 | 61.4 | 35 | 62.3 |
2 | 54.5 | 19 | 63.1 | 36 | 63.6 |
3 | 58.4 | 20 | 64.4 | 37 | 64.8 |
4 | 57.3 | 21 | 62.2 | 38 | 64.8 |
5 | 58.8 | 22 | 62.2 | 39 | 65.9 |
6 | 59.7 | 23 | 66 | 40 | 65 |
7 | 59.7 | 24 | 66 | 41 | 66.3 |
8 | 61 | 25 | 65.1 | 42 | 66.3 |
9 | 57.5 | 26 | 62.8 | 43 | 66.4 |
10 | 59.9 | 27 | 62.8 | 44 | 64.1 |
11 | 60.9 | 28 | 64 | 45 | 65.3 |
12 | 63.3 | 29 | 65.2 | 46 | 65.5 |
13 | 60.2 | 30 | 63.2 | 47 | 65.5 |
14 | 61.6 | 31 | 64.5 | 48 | 65.5 |
15 | 61.6 | 32 | 65.8 | 49 | 65.5 |
16 | 63.6 | 33 | 65.8 | 50 | 65.5 |
17 | 63.6 | 34 | 64.7 | 51 | 65.8 |
表1. 每个模型的AIC
模型序数 | S-AIC权重 | 模型序数 | S-AIC权重 | 模型序数 | S-AIC权重 |
---|---|---|---|---|---|
1 | 0.007 | 18 | 0.0132 | 35 | 0.00812 |
2 | 0.4 | 19 | 0.00558 | 36 | 0.00437 |
3 | 0.0577 | 20 | 0.00294 | 37 | 0.0024 |
4 | 0.0992 | 21 | 0.00873 | 38 | 0.0024 |
5 | 0.0488 | 22 | 0.00873 | 39 | 0.00135 |
6 | 0.0309 | 23 | 0.00133 | 40 | 0.00213 |
7 | 0.0309 | 24 | 0.0013 | 41 | 0.00113 |
8 | 0.0155 | 25 | 0.00202 | 42 | 0.00113 |
9 | 0.0908 | 26 | 0.0065 | 43 | 0.00106 |
10 | 0.027 | 27 | 0.0065 | 44 | 0.00341 |
11 | 0.0168 | 28 | 0.00358 | 45 | 0.00182 |
12 | 0.00505 | 29 | 0.00193 | 46 | 0.00101 |
13 | 0.0233 | 30 | 0.0054 | 47 | 0.00171 |
14 | 0.012 | 31 | 0.00275 | 48 | 0.00171 |
15 | 0.0117 | 32 | 0.00147 | 49 | 0.00169 |
16 | 0.00425 | 33 | 0.00147 | 50 | 0.00165 |
17 | 0.00425 | 34 | 0.00255 | 51 | 0.00143 |
表2. S-AIC权重
从整个组合模型来看,所有模型中包含的可能的解释变量对豆科植物–根瘤菌互利共生合作系统或多或少都有影响,只不过所占权重较大的模型中的解释变量影响作用较大。模型平均结果表明:X2、X3、X4、X5、X1*X4、X3*X4、X1*X5是影响该合作系统的主要因素,其他的如X1、X1*X3、X3*X5、X4*X5等因素也有一定的影响,不过影响力较小而已。
一方面,利用AIC准则我们从51个模型中选择了一个最好的模型,得到豆科植物–根瘤菌互利共生系统的主要影响因素有X3、X4、X5、X1*X4、X1*X5以及X3* X4。而通过模型平均方法,使用S-AIC给每个模型赋权重,最后所得全模型,该组合模型包含了51个模型,解释作用低的模型其权重较小,最终得到的影响因素有X2、X3、X4、X5、X1*X4、X3*X4、X1*X5、X1、X1*X3、X3*X5、X4*X5等。与模型选择相比,我们给51个模型都赋予了各自的权重,得到的这样一个组合模型包含了数据提供的所有信息,而且模型平均最后得到的组合模型包含模型选择选出的模型2。因此,我们分析豆科植物-根瘤菌互利共生系统的影响因素,模型平均方法比模型选择更加方便准确,得到的影响因素相对较全面具体。
另一方面,表2的分析结果揭示了模型平均方法不但为我们提供了豆科植物–根瘤菌互利共生系统的影响因素,也具体给出了每个模型中的每个因素对该系统影响的重要性。而模型选择仅仅给出了所选的一个最优模型,从这个模型只能发现哪些因素对共生系统有影响,信息量较小,与模型平均相比,遗失了很多有用信息。
综上所述,基于模型选择与模型平均方法,通过对影响豆科植物-根瘤菌互利共生系统的因素实例进行Meta分析,由分析结果说明模型平均方法不但可以应用于Meta分析中,而且其分析效果优于模型选择。具体结论如下:
(1) 本文基于Meta分析,整合了豆科植物–根瘤菌互利共生系统的相关研究,建立了许多Meta回归模型。基于所建立的Meta回归模型,我们分别采用模型选择和模型平均方法对豆科植物–根瘤菌互利共生系统影响因素的分析模型进行确定。结果表明:模型平均方法得到的组合分析模型,详细的解释了豆科植物–根瘤菌互利共生合作系统的主要影响因素有X2、X3、X4、X5、X1*X4、X3*X4、X1*X5、X1、X1*X3、X3*X5、X4*X5等,此外,根据每个模型所占的权重,发现X4、X3、X1*X4以及X3*X4这四个因素的影响作用最大。而通过模型选择,得到X3、X4、X5、X1*X4、X1*X5以及X3*X4是该合作系统的影响因素。模型选择得到的模型中没出现的变量并不能说明其对合作系统没有影响,模型平均方法弥补了这一缺陷。
(2) 事实上,线性回归中,模型平均方法的分析效果往往优于模型选择,经本文研究发现:模型选择与模型平均方法除了应用于线性回归中之外,也均可应用于Meta分析中,而且模型平均的分析效果优于模型选择,这和线性回归的结论是一致的。因此,未来可将模型平均广泛的应用于统计学以及其他领域。
本文得到云南财经大学研究生创新基金项目(2015YUFEYC015)的资助。
尹潇潇. 模型选择与模型平均在Meta分析中的应用研究The Application Research of Model Selection and Model Averaging in Meta-Analysis[J]. 自然科学, 2015, 03(03): 81-88. http://dx.doi.org/10.12677/OJNS.2015.33011