Statistical and Application
Vol.04 No.04(2015), Article ID:16687,7 pages
10.12677/SA.2015.44035

The Model on Factors Selection and Prediction of Sand Liquefaction

Dongli Cui, Weiyan Mu

School of Science, Beijing University of Civil Engineering and Architecture, Beijing

Received: Dec. 10th, 2015; accepted: Dec. 27th, 2015; published: Dec. 30th, 2015

Copyright © 2015 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

ABSTRACT

In order to reduce data dimension, simplify data operation, we adopted the method combining the factor analysis and discriminant analysis, and applied the cumulative variance contribution rate of k in front of more than 85% of the principal components instead of the original related factors of sand liquefaction to analyze, this method didn’t reduce sample size, just made the raw data enrich- ment and comprehensive, did the discriminant analysis based on the factor score data, a set of discriminant results can be obtained. In addition, the extraction methods of principle component analysis were used to get the variable joint degrees, high variable joint degrees indicated the most information can be extracted by factor, then found the corresponding variable, did the discriminant analysis using these variables again, the two discriminant analysis results were compared with the original results and analyzed the misjudgment rate. Results show that the combination of the two methods has strong feasibility in filtering the main factors of sandlique faction and the prediction of sand liquefaction to some extent, and the effect is better.

Keywords:Sand Liquefaction, Factor Analysis, Discriminant Analysis

砂基液化的因素筛选及预测模型

崔栋利,牟唯嫣

北京建筑大学理学院,北京

收稿日期:2015年12月10日;录用日期:2015年12月27日;发布日期:2015年12月30日

摘 要

为降低数据维数,简化数据运算,我们采用因子分析和判别分析相结合的方法,运用方差累计贡献率在85%以上的前k个主成分代替原始砂基液化的有关因素,对砂基液化因素进行分析,这种方法并没有缩减样本量,只是对原始数据进行了浓缩和综合,通过对得到的因子得分数据进行判别分析,可得到一组判别结果。另外,利用因子分析的提取方法得到变量的共同度,变量共同度高的表示变量中的大部分信息均能够被因子所提取,选出变量共同度较高的对应的变量,利用这些变量再次进行判别分析,对两次判别分析得到的结果与原结果进行汇总对比,分析误判率。结果表明,这两种方法的结合在一定程度上用于筛选砂基液化的主要因素以及预测砂基液化可行性强,效果较好。

关键词 :砂基液化,因子分析,判别分析

1. 引言

砂基液化是砂质地基在地下水压力突然增加时产生流动的现象。疏松的砂性土,特别是粉细砂,经过动载荷作用后将趋于密实,如地震、打桩、爆破及机械振动等。砂基液化能导致地裂缝、错位、滑坡、不均匀沉降等地基失稳现象。砂土、饱和、震动是砂土液化的基本条件。只要采取一定的方法和措施,砂基液化是可以预防和控制的[1] 。砂基液化类型的确定是对砂质地基质量和稳定性的一种综合评价,所以利用相关因素以及样本数据对砂基液化进行预测有非常重要的作用,但是影响砂基液化的因素有很多,影响砂土液化的因素包括砂土的成分、砂的密度、砂层的有效覆盖压力及震动的强度和时间等,如果从这些因素来研究砂基是否液化,避免各个因素之间的信息重合,可以更好地分析各个因素对砂基液化的综合影响,从而可以根据这些因素的数据对砂基进行预测,这样可以降低数据维数,简化数据运算,节省计算时间,对于砂基液化问题的研究具有重要作用。

在现实研究过程中,往往需要对所反映事物、现象从多个角度进行观测。因此研究者往往设计出多个观测变量,从多个变量收集大量数据以便进行分析寻找规律。多变量大样本虽然会为我们的科学研究提供丰富的信息,但却增加了数据采集和处理的难度,更重要的是,许多变量之间存在一定的相关关系,导致了信息的重叠现象,从而增加了问题分析的复杂性 [2] 。所以,我们可以借鉴因子分析浓缩数据的优点,在信息损失较小的前提下,将多因素转换成较少的因素,根据提取的较少因素对未知类别的数据进行预测,将其运用到实际工程项目中,具有重要的作用。

2. 模型理论

2.1. 因子分析

因子分析(Factor Analysis)是多元统计分析的一个重要分支,最初是由英国心理学家C. Spearman提出的。利用“降维”的思想,在信息损失较小的前提下,将大量的彼此可能存在相关关系的变量,转换成较少的彼此不相关的综合指标。这样既可以减轻收集信息的工作量,又可使各综合指标代表的信息不重叠 [3] 。

常用的因子分析类型有R型因子分析和Q型因子分析,分别是针对变量和样本作因子分析。我们的目的是将多因素转换成较少的因素,所以我们选用R型因子分析。设影响砂基液化的因素变量为,为公共因子,因子分析的基本模型表示为:

将因子分析的数学模型用矩阵形式表示如下:

其中,

为因子载荷矩阵,估计的方法有多种,如主成分法、映像因子法、加权最小二乘法、最大似然法等,最常用的是主成分法,aij表示在各个因子变量不相关的情况下,第i个原始变量和第j个因子变量的相关系数,体现了zi在第j个公共因子变量上的相对重要性,aij的值越大,公共因子Fj和原始变量Xi的关系就越强。

2.2. 判别分析

判别分析是在分类数目已知的情况下,根据已经确定分类的对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。判别分析法的思路如下:首先建立判别函数,然后通过已知所属分类的观测值确定判别函数中的待定系数,最后通过得到的判别函数对未知分类的样本进行预测。常用的判别分析法有距离判别法、费希尔判别法、贝叶斯判别法。判别分析在气候分类、农业区划、土地类型划分中有着广泛的应用 [4] 。

2.3. 因子–判别分析

运用方差累计贡献率在85%以上的前k个主成分代替原始砂基液化的有关因素,对砂基液化因素进行分析,并没有缩减样本量,只是对原始数据进行了浓缩和综合,通过对得到的因子得分数据进行判别分析,可得到一组判别结果 [5] 。另外,利用主成分分析的提取方法得到变量的共同度,变量共同度高的表示变量中的大部分信息均能够被因子所提取,选出变量共同度较高的对应的变量,利用这些变量再次进行判别分析,对两次判别分析得到的结果与原结果进行汇总对比,分析误判率。

3. 模型实践

在有关地震预报的研究中,有时会遇到砂基液化的问题,影响砂基液化的因素有很多,如砂土的成分、砂的密度、砂层的有效覆盖压力及震动的强度和时间等,从中选择了7个有关因素,分别从已液化和未液化的地层中得到容量分别为9与16的训练样本,第一组为液化,第二组为未液化,为避免在软件操作中遇到问题,将原始数据中的“液化”与“非液化”用“1”与“2”代替,样本数据如表1所示 [6] :利用SPSS对样本数据进行基本统计,如均值,中位数等统计量,统计结果如表2所示。

Table 1. Data of sand liquefaction

表1. 砂基液化数据

Table 2. Statistics description on factors of sand liquefaction

表2. 砂基液化因素基本统计

a存在多种方式。已显示最小值。

3.1. Bartlett球形度检验

Bartlett球形度检验的原假设为相关系数矩阵为单位阵,如果Sig值小于0.05,则表示变量之间存在相关关系,由此可否定相关矩阵为单位阵的原假设 [7] ,即此可认为各变量之间存在显著的相关性,Bartlett形度检验结果表3表明,Bartlett值 = 115.053,P = 0.000,因此适合做因子分析。

3.2. 砂基液化因素的筛选及预测

把7项砂基液化因素作为变量,利用SPSS软件进行因子分析,选择大于等于的1的特征值,并对他们的方差贡献率和累计贡献率进行汇总,汇总结果见表4,由于,非常接近于1,且由大到小排列的前三个特征值的累计贡献率未达到85%,但加上之后的累计贡献率达到90.799%,所以保留。因子分析得到的因子得分数据见表5,把得到的因子得分数据看做四个变量,利用四个变量进行判别分析,对样本进行再次分类。另外,利用主成分分析的提取方法得到变量的共同度,结果见表6,变量共同度高的表

Table 3. Bartlett sphericity test

表3. Bartlett球形度检验

Table 4. The first four characteristic value in the sequence and variance contributive rate

表4. 前4个特征值及方差贡献率

Table 5. The data of factor score

表5. 因子得分数据

Table 6. Variable degree of common

表6. 变量共同度

Table 7. Grouping contrast of sample prediction

表7. 样本预测分组对比

示变量中的大部分信息均能够被因子所提取,选出变量共同度较高的对应的变量,利用这些变量再次进行判别分析,对样本进行第二次分类,对两次判别分析得到的结果与原结果进行汇总对比,分析误判率。从表6中我们可以看出X1,X2,X6,X7变量共同度较高,所以对这四个变量进行判别分析,最后对原来分组和两次判别分析的分组结果进行汇总和对比。结果见表7,其中,预测1和预测2是分别对因子得分数据和X1,X2,X6,X7进行判别分析得到的。

3.3. 结论

表7可以得出,对因子得分数据进行判别分析得到的预测与原来的分组完全一致,一致性为100%,对X1,X2,X6,X7进行判别分析得到的预测与原来的分组几乎一致,只有第五组,第六组发生误判,误判率为8%,相对较低。在实际生活中,我们经常会遇到高维数据,运用本文的模型对相关指标进行筛选和对数据的分组进行预测,可以达到降低数据维数,简化数据运算,节省计算时间的重要作用。结果表明,这两种方法的结合在一定程度上用于筛选砂基液化的主要因素以及预测砂基液化可行性强,效果较好。

文章引用

崔栋利,牟唯嫣. 砂基液化的因素筛选及预测模型
The Model on Factors Selection and Prediction of Sand Liquefaction[J]. 统计学与应用, 2015, 04(04): 312-318. http://dx.doi.org/10.12677/SA.2015.44035

参考文献 (References)

  1. 1. 李学文. 中国袖珍百科全书[M]. 北京: 长城出版社, 2001: 5301-5309.

  2. 2. 陈胜可. 统计分析从入门到精通[M]. 北京: 清华大学出版社, 2013: 349-360.

  3. 3. 王鹏泽, 刘鹏飞, 等. 因子、聚类及判别分析在烟叶风格特色评价中的应用[J]. 中国烟草科学, 2015, 36(2): 20-25.

  4. 4. 邵良杉, 徐波. 基于因子分析与Fisher判别分析法的隧洞围岩分类研究[J]. 公路交通科技, 2015, 32(7): 98-100.

  5. 5. 王玉杰, 王千. 主要土壤肥力因素指标的筛选模型[J]. 生物数学学报, 2000, 15(2): 163-168.

  6. 6. 梅长林, 范金城. 数据分析方法[M]. 北京: 高等出版社, 2006: 142-164.

  7. 7. 何晓群. 多元统计分析[M]. 北京: 中国人民大学出版社, 2012: 143-154.

期刊菜单