Hans Journal of Computational Biology
Vol.04 No.04(2014), Article ID:14806,8 pages
10.12677/HJCB.2014.44007

The Application of Different Maize Varieties Classification and Character Evaluation by Multivariate Statistical Method

Jing Liu, Siyu Li, Xin Liu, Fengjiang Li, Mingzhi Lu

College of Chemistry and Life Science, Qinghai University for Nationalities, Xining Qinghai

Email: jiajing333@163.com

Received: Jan. 20th, 2015; accepted: Jan. 31st, 2015; published: Feb. 6th, 2015

Copyright © 2014 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

ABSTRACT

Background: Corn is cultivated all over the country. Because it has short growth cycle, during the growing season it requires warm and rainy weather. Hebei province is a province with large production of maize yield. To improve the yield, the increase plan of summer maize production is essential. Methods: 10 agronomic characters of 14 maize varieties are analyzed by R software for correlation analysis, clustering, principal component analysis and factor analysis. It provides a theoretical basis for evaluation and utilization of the Hebei summer maize premature group of High-Yielding Maize Varieties breeding and varieties (combination). Conclusions: 1) Jingshi96-3, Zhongyu NO. 11, Cang9005 × Ji815, 150-4 × H21, and other comprehensive properties are a good combination; 2) Yield factor, ear coarse factor, growth factor and density factor can affect the output of corn, and thus the economic yield.

Keywords:Corn, Agronomic Traits, Clustering Analysis, Principal Component Analysis, Factor Analysis

多元统计分析在不同玉米品种分类和性状评估中的应用

刘晶,李思宇,刘欣,李丰江,芦明智

青海民族大学化学与生命科学学院,青海 西宁

Email: jiajing333@163.com

收稿日期:2015年1月20日;录用日期:2015年1月31日;发布日期:2015年2月6日

摘 要

背景:玉米在我国各地均有栽培,因为其生长周期短,生长期内要求温暖多雨。河北省是玉米产量大省,为了提高产量每年的夏玉米增产计划是必不可少的,方法:对14个玉米品种的10个农艺性状应用R软件进行相关分析、聚类分析,主成分分析和因子分析。为河北夏玉米早熟组高产玉米品种选育和品种(组合)评价利用提供理论依据。结论:1) 京试96-3,中玉11号,沧9005 × 冀815,150-4 × H21等几个综合性状是较为优良的组合。2) 产量因子,穗粗因子,生长因子,密度因子都能影响玉米的产量,从而影响经济产量。

关键词 :玉米,农艺性状,聚类分析,主成分分析,因子分析

1. 引言

《本草纲目》曰:玉米,原名玉蜀黍,又名苞米或玉麦。作为我国第二大粮食作物,提高玉米产量的意义是非常重要的。在遗传育种中,以多变量分析为基础的多元统计分析在研究数量性状间关系和性状间相互关系的遗传规律研究中得到广泛应用[1] -[3] 。基于此基础,本文对2006年阜城原种场试验站河北夏玉米早熟组原始数据进行相关分析,聚类分析,主成分分析因子分析。

2. 方法

2.1. 数据来源

表1

2.2. 分析方法 [4] [5]

应用R软件对不同组合与各个性状间的关系进行相关分析,聚类分析,主成分分析、因子分分析。

相关分析:相关分析是对客观现象具有的相关关系进行的研究分析。其目的在于帮助我们对关系的密切程度和变化的规律性有一个具体的数量上的认识,作出判断,并且用于推算和预测。其主要内容包括:1) 确定现象之间有无关系;2) 确定现象之间关系的密切程度;3) 测定两个变量之间的一般关系值;4) 测定因变量估计值和实际值之间的差异。

聚类分析:聚类分析(Cluster analysis)是根据事物本身的特性研究个体分类的方法,其原则是同一类中的个体有较大的相似性,不同类的个体差别比较大。根据分类对象的不同分为样品聚类和变量聚类。

主成分分析:是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。

因子分析:因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法。在

Table 1. The summer of 2006 Fucheng seed stock station experimental station in Hebei corn premature set of raw data

表1. 2006年阜城原种场试验站河北夏玉米早熟组原始数据

各个领域的科学研究中往往需要对反映事物的多个变量进行大量的观测,收集大量数据以便进行分析寻找规律。

3. 结果

3.1. 性状间相关关系

表2和假设检验可以知道亩产量与穗位呈显著的负相关,亩产量与倒伏呈极显著负相关,亩产量与出粒率呈显著的正相关。穗位与株高呈极显著正相关,倒伏与出粒率呈极显著负相关。其他变量间没有显著的关系

3.2. 聚类分析

3.2.1. R型分析

图1中可得,对于不同品种的10个变量进行分类,可以分为4类。第一类与产量有紧密正相关的变量(全生长期,穗长,出粒率,和亩产量)第二类与产量有不太紧密正相关的变量(千粒重,穗重),第三类与产量有负相关的变量(到伏,穗位,株高)和第四类与产量无关的变量(秃尖)。

3.2.2. Q型分析

用四种不同方法进行聚类分析结果基本保持一致从图2中可以得到以下结论:

第一类:品种1(冀单17号)品种10(廊玉6号)品种14(冀单301)

特点:亩产量较高,千粒重较高,全生长期较短,穗长较短,倒伏较少,穗粗较粗,株高较低。

第二类:品种5(196 × 原92)品种12(八苏 × 90110)品种13(95101)品种2冀(161 × 35-66)品种9(远征808)

特点:千粒重较低,全生长期较长,倒伏较多,穗粗较粗。

Table 2. The relationship between different corn varieties characters

表2. 不同玉米品种性状间相关关系

Figure 1. Different varieties of maize variable cluster analysis

图1. 不同品种玉米变量聚类分析

Figure 2. Different corn varieties cluster analysis

图2. 不同玉米品种聚类分析

第三类:品种7(京218 × 京594)品种8(沧9005 × 冀815)

特点:亩产量高,穗位偏低,倒伏较少,出粒率较高,株高较低,秃尖较少。

第四类:品种4(150-4 × H21)品种6(沧9005 × 冀815)品种11(中玉11号)

特点:穗长最长,倒伏较少,秃尖较长。

第五类:品种3(12 × 15)

特点:亩产量最低,全生长期较短,穗长较短,穗粗最细,出粒率最低。

综合评价,第三类群为最优良群体。具有产量高、倒伏少,出粒率高,株高低、穗位低的特点。

3.3. 主成分分析

用R程序主成分分析表格如表3。

表3可知第一主成分贡献率为35%,第二主成分贡献率为18%,前五个主成分累计贡献率已达90%,因此只需用五个主成分就能很好概括这组数据。除了通过计算累积贡献率判断之外,通常也将碎石图作为直观判断的依据。具体方法是:在碎石图上找一拐点,使得该点之后的点纵坐标对应的值均较小且相差不大,则取拐点的序号为主成分的个数。

图3可知取5个主成分很切合实际。

表4可得,以下结果

由上面式子线性关系可以看出:

Table 3. Principal component extraction analysis table

表3. 主成分提取分析表

Figure 3. Principal component analysis of gravel

图3. 主成分分析碎石图

Table 4. Principal component coefficient matrix

表4. 主成分系数矩阵

在第一主成分里,y(亩产量),X2(千粒重),X3(全生长育期),X4(穗长),X6(穗粗),X7(出粒率)为正指标,其中以亩产量和出粒率最为显著。而X1(穗位),X5(倒伏),X8(株高)为负指标,其中以倒伏最为显著。可以总结第一主成分主要是对产量多少的一个描述。

在第二主成分里,X4(穗长),X8(株高),X9(秃尖)为正指标,其中以穗长最为显著。而X1(穗位),X2(千粒重),X6(穗粗),X7(出粒率)为负指标,其中以穗粗最为显著。可以总结第二主成分主要是对玉米穗粗细长短位置等形态的一个描述。

在第三个主成分里,X2(千粒重)和X9(秃尖)为正指标,其中二者都达到了0.5左右,y(亩产量),X1(穗位),X3(全生长育期),X8(株高)为负指标,其中以全生长育期最为显著。可以得到第三主成分主要是对玉米生长时间有关的一个描述。

在第四个主成分里,X1(穗位),X2(千粒重),X4(穗长),X6(穗粗),X7(出粒率),X8(株高),X9(秃尖)为正指标,其中以X1(穗位),X8(株高),X9(秃尖)最为显著,X5(倒伏)为负指标,可以总结第四主成分主要是对倒伏的描述。

在第五个主成分里,X1(穗位),X4(穗长),X7(出粒率)为正指标,其中以出粒率为最为显著,而y(亩产量),X2(千粒重),X3(全生长育期),X5(倒伏),X9(秃尖)为负指标,其中以y(亩产量),X2(千粒重),X3(全生长育期)最为显著。可以看到第五主成分是对生长情况一个描述。

根据表5可以得到各个品种综合得分表6

表6中可以得到京218 × 京594综合排名第一,京试96-3是综合排名第二,中玉11号综合排名第三,沧9005 × 冀815综合排名第四,150-4 × H21综合排名第五。

3.4. 因子分析

3.4.1. 因子分析公因子的意义

本研究共收集到14份玉米品种10个性状的数据,应用KMO和Bartlett检验表明,本试验符合因子分析要求,可对数据集进行因子分析。因子分析采用主成分方法,按最小特征根大于1的原则保留公因子,共得总累计贡献率为84%的5个公因子。为简化对因子的解释对因子采用方差极大正交旋转,各因子旋转后载荷矩阵见表7。

Table 5. The varieties of the principal component values

表5. 各个品种的主成分值

Table 6. The varieties comprehensive score

表6. 各个品种综合得分

Table 7. The factor analysis of the characteristic value and contribution

表7. 因子分析中特征值和贡献率

用R程序得到结果如下表7

通过假设检验可知,五个因子可以代表整体样本的信息。

表8可以看出,第1公因子载荷阵中出粒率最大,穗粗、亩产量次之,穗长、生长期、千粒重较

Table 8. Factor analysis load matrix

表8. 因子分析载荷矩阵

小。而表现负向较大的有倒伏、穗位、株高。表明出粒率较大,穗粗、亩产量、穗长、生长期、千粒重之间存在相互促进的关系,这些性状都与产量较为直接的关系,故可称第1公因子为产量因子。从第1公因子来看,产量育种中应注重对出粒率、穗粗、亩产量、穗长、生长期与千粒重性状的选择而倒伏对产量有较高负向作用,育种中应特别注重提高品种的病倒伏性,因为倒伏引起产量的损失是最直接的原因。穗位、株高与产量呈负向作用,说明穗位、株高都是引起倒伏的重要原因。第2公因子载荷阵中,穗粗和穗位载荷值最高,两个性状与穗相关,且穗长与第二公因子呈负向相关,因此可称之为玉米穗粗因子。一般来说穗粗、穗位高较高的品种其生物产量也较高。第3公因子载荷阵中,穗位和株高值最高,两个性状与玉米植株生物量生产相关,因此可称作生长因子。一般来说株高、穗位高较高的品种其生物产量也较高。第4公因子载荷阵中千粒重最高、秃尖穗粗依次之,在生产上,密度和秃尖与千粒重之间有密切的联系,因此这些性状都与密度有关,故第4公因子可称之密度因子。第五公因子的载荷阵中,亩产量和生长期最高,而穗位、倒伏呈负向作用,这些性状都与产量有关,为了区别第一公因子,我们命名为产量第二因子。故由于第五因子所占方差比例比较小可与第一因子合并。故主要由四个公因子影响,分别是产量因子,穗粗因子,生长因子,饱满度因子。

3.4.2. 因子分析图形表示

在现代农业科学研究中常需对生物的多个性状进行综合分析,若是对第一个公因子产量进行研究可以从图中看出,品种10,5,4得分最高。若是对第二个公因子穗粗因子进行研究,从图中可以看出品种10,13,9得分最高。由图4可依次类推。

4. 讨论

1) 利用多元统计分析使我们能从宏观方面对性状间的关系进行剖析,加深对性状间内在联系规律性认识。利用因子分析对10个原始性状变量进行综合,根据基因型的因子得分进行聚类一方面加深对这些性状间内在关系有更深理解,这样可使育种中有针对性地对几个主因子进行选择和改良,提高品种选育中效率与鉴定准确性,另一方面通过对性状的聚类,利于对性状进行优缺点评估,为选育更加贴近目标环境品种提供有价值信息。

2) 本研究中玉米品种(组合)的10个性状里,主要涉及的是产量、发育和抗性性状,经因子分析简化

Figure 4. 14 varieties under different two factors of scatter plot

图4. 14个品种在不同两个因子下的散点图

为5个公因子,其中第1公因子、第2公因子、第4公因子、第5公因子对产量有正向作用,而第3公因子都对产量有负向作用。第1公因子与产量最为密切,该因子中与产量同向的性状对产量都有正向的协同作用,提高相对应性状值可有效提高产量。第2公因子与产量呈一定负相关,从植物生理学来看,株高更多体现的是生物产量性状。第3公因子与产量因子呈一定的正相关,但却未列入产量因子中,说明穗粗因子性状可能与产量因子性状在遗传基础的差异性,协调好穗粗与穗长可以提高产量。第4公因子密度因子与产量在一定程度呈正相关,但是到达一定高度时又呈负相关。所以合理安排种植密度可以提高产量。

3) 在作物遗传育种中,育种目标的确定具有非常重要的意义,育种目标决定材料的选择和改良方向。由于气候环境、病虫害流行趋势、栽培管理水平的不同,不同地区对育种目标的要求是各不相同的。在本研究中,初步得到了一些影响产量因子信息,并筛选到京218 × 京594,京试96-3,中玉11号,沧9005 × 冀815,150-4 × H21等几个综合性状较为优良的组合,但为获得更准确目标环境对品种要求的信息,应加增加测验品种并采用多年多点方式进行研究。

文章引用

刘 晶,李思宇,刘 欣,李丰江,芦明智, (2014) 多元统计分析在不同玉米品种分类和性状评估中的应用
The Application of Different Maize Varieties Classification and Character Evaluation by Multivariate Statistical Method. 计算生物学,04,59-67. doi: 10.12677/HJCB.2014.44007

参考文献 (References)

  1. 1. 谭贤杰 (2011) 应用多元统计分析玉米农艺性状. 种子, 5, 32-36.

  2. 2. 林琼 (2008) 福建省杂交早稻主要性状与产量的统计分析. 种子, 4, 32-36.

  3. 3. 杨文鹏, 王伟 (2013)多元统计分析等方法在02玉米自交系性状选育上的应用. 贵州农业科学, 6, 1-4.

  4. 4. 薛毅, 陈立萍 (2007) 统计建模与R软件. 清华大学出版社, 北京.

  5. 5. 高慧璇 (2011) 应用多元统计分析. 北京大学出版社, 北京.

期刊菜单