Advances in Applied Mathematics
Vol.06 No.04(2017), Article ID:21458,6 pages
10.12677/AAM.2017.64068

Model for Detecting QTL Controlling for Dynamic Trait Based on B-Spline Function

Xiaojing Zhou1, Qianyu He2, Qiaosheng Zhang1, Ming Fang3, Li Yan4, Yangyang Li2, Qi Li2

1Department of Mathematics, Heilongjiang Bayi Agriculture University, Daqing Heilongjiang

2College of Animal and Veterinary Medicine, Heilongjiang Bayi Agricultural University, Daqing Heilongjiang

3College of Information Technology, Heilongjiang Bayi Agricultural University, Daqing Heilongjiang

4College of Life Science and Technology, Heilongjiang Bayi Agricultural University, Daqing Heilongjiang

Received: Jul. 1st, 2017; accepted: Jul. 18th, 2017; published: Jul. 24th, 2017

ABSTRACT

Dynamic traits are those phenotypic values change with time and other quantifiable factors such as age, parities, physiological status, performance level and environment etc. Because of the special economic status of the dynamic traits in breeding and production, it is very important to reveal the genetic regularity and improvement of these traits. The choice of body shape is beneficial to the improvement of the whole health and milk production of dairy cows. On the basis of B- spline function, a random regression model (RRM) has been developed to detect the QTLs controlling the dynamic traits. A real dataset for China Holstein cows, which contains the records of body weight from the local dairy farm, was analyzed and the biological conclusions were derived.

Keywords:Dynamic Trait, B-Spline, Detection, Model

检测控制奶牛动态性状的QTL方法研究 ——基于B样条插值函数

周晓晶1,何倩毓2,张巧生1,方铭3,闫丽4,李洋洋2,李琦2

1黑龙江八一农垦大学理学院,黑龙江 大庆

2黑龙江八一农垦大学动物科技学院,黑龙江 大庆

3黑龙江八一农垦大学生命科学技术学院,黑龙江 大庆

4黑龙江八一农垦大学信息技术学院,黑龙江 大庆

收稿日期:2017年7月1日;录用日期:2017年7月18日;发布日期:2017年7月24日

摘 要

随着时间(生命时期、年龄、胎次等)或其他可以量化的因素(生理状态、生产水平、代谢率和环境条件等) 变化的性状,称为动态性状,如身高、体重、胸围、产奶量等等。由于动态性状在育种和生产中特殊的经济地位,揭示这类性状遗传及其改良提高的研究工作尤显重要。体型性状的选择有利于奶牛整体健康和产奶性状的提高。本文基于B样条插值函数,建立检测调控动态性状基因位点的随机回归模型,实际数据分析表明模型的合理性和适应性。

关键词 :动态性状,B-样条插值,检测,拟合

Copyright © 2017 by authors and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

1. 前言

表型值随着时间(生命时期、年龄、胎次等)或其他可以量化的因素(生理状态、生产水平、代谢率和环境条件等) 变化的性状称为动态性状。这些性状的表型值有无限个,而且其变化可用一些连续的函数(或随机过程)来描述,在指定时间点观测动态性状的有限变化点就获得了实验所需的重复记录 [1] [2] [3] 。

为检测控制动态类型的数量性状位点(QTL),学者们采用参数和非参数的模型来描述表型和基因型效应随时间的变化。大多数采用具有生物学意义的数学模型去拟合数量性状位点(QTL)的表型效应。然而,这样的参数方法具有局限性,因为数学函数是非线性的。相反,学者们较青睐于将非参数的Legendre多项式嵌入随机回归模型中作为子模型检测动态性状位点。Legendre多项式的优点除了能够拟合任何性状的生物曲线之外,更重要的一点是它是线性模型,这样的理论和方法论促使它能够广泛地应用于QTL定位的线性模型用来估计QTL参数。高阶的Legendre多项式能够很好地拟合均值和方差的变化,但是,这样的多项式经常在曲线的极值点过高地估计观测值,导致Runge(龙格)现象,也就是说,由于曲线上极值点处的震荡,曲线的拟合度随着阶数的升高而显著降低。相反,B-spline [4] 能够更广泛地应用于非参数的数据分析去推断变量的经验分布。样条插值函数应用于检测QTL是杨于2006提出的 [5] 。

目前,奶牛育种的总体趋势是在保持奶牛产奶量以及乳成分等优良遗传性状的同时,兼顾奶牛的躯体结构、趾蹄健康、使用寿命、繁殖性能等综合遗传性能的选育,以获得奶牛养殖的最大经济效益。有研究表明-加强体型性状的选择对奶牛产奶量以及乳成分的提高有利,也有利于降低体细胞数,增强个体乳房炎的抗性,鉴于此,本文研究了检测调控奶牛动态性状基因位点的检测方法 [6] 。

应用B-spline函数检测调控动态性状QTL的关键是结点个数、结点位置以及阶次的选择。对于样本容量较小,观测值较少的数据集仍然是用较简单的多项式作为子模型拟合效果更好。根据文献资料显示,对于奶牛的身高、体重这些体尺性状选择5、6、7阶的,结点个数为3个的B-spline拟合效果更好。

2. 方法

以BC群体为例,动态性状表型值和QTL的遗传效应及环境效应的关系可由如下模型描述

(1)

这里为群体均值,为QTL基因型指示变量,取值1和−1分别为对应着QTL基因型QQ和Qq.为加性效应,为剩余误差,服从正态分布,从而模型(1)记为矩阵形式如下:

(2)

2.1. Legendre多项式嵌入随机回归模型中

用k阶Legendre多项式描述动态性状随时间的变化规律,“从而第i个体在第t个测定日”动态性状表型值的遗传模型可表示为

(1)

其中,,n为个体数;为时刻t的群体均值,为基因型指示变量,当基因型为QQ时,指示变量为1,当基因型为Qq时,指示变量为−1; ()为第j个QTL的遗传值,q为基因组上观测到的QTL的最大个数,为指定个体依赖于时间的环境效应,服从正态分布为指定个体随时间独立的环境效应,服从正态分布。可知该模型为固定效应模型,为固定效应,为随机效应。

2.2. B-spline函数嵌入随机回归模型中

模型中的所有参数,除了都是时间的函数。而参数和时间之间的函数关系可用B样条(B-spline)来描述。1974年,Gordon和Riesenfeld用B样条基线函数代替了Bernstein基线函数,构造了B-spline样条曲线。B-spline样条曲线分段组成。每一段的参数t的区间为[0,1]。这样就克服了Bezier曲线的缺点:改变Berier曲线任意一个控制点,曲线上的所有点都变换。B-Spline曲线的优点:修改某一控制点只引起与该控制点相邻的曲线形状发生变化,远处的曲线形状不受影响。

定义为B样条的协变量,带有个节点,阶多项式,。定义为随时间独立的群体均值做成的向量。在这里我们可以视B样条为权重,构造的线性组合来描述随时间独立的群体均值。其他的参数可以用同一个B样条来描述,具体为。由于为随机回归效应,我们可以假设服从正态分布为指定个体随时间独立的随机回归效应做成的协方差矩阵,这样我们利用B样条重新参数化后,(1)改写成如下线性模型

(2)

在t + 1个固定时间点测得每个个体的表型值,,从而这t+1个向量作成向量形式如下

定义矩阵,这样的线性模型记为矩阵形式

(3)

这里,剩余效应向量,服从正态分布,

2.3. 参数估计

模型(3)的数学期望为

协方差矩阵为

似然函数为

(4)

的先验分布为常数,即为均匀先验。

所有参数的联合先验分布函数为

(5)

结合数据的条件概率密度和参数的先验分布得到数据和参数的联合分布为

(6)

与参数的联合后验分布成比例。此联合后验分布即为目标分布函数。

对似然函数取对数,求偏导,即可得到每个参数的极大似然估计的对数形式,由于每个参数都是待估计参数的函数,因此需要迭代算出。

3. 实例分析

动物资源群体来源于大庆本地牧场-红骥牧场。奶牛品种为中国荷斯坦奶牛,重要经济性状为体重、体长动态性状,测定时间从2010年1月至2013年13月。具体为2010年出生的60头奶牛、2011年出生的70头奶牛及2012年出生的80头奶牛。由于奶牛早期生长发育状况与日后的产奶量、繁殖问题和健康问题有着密切关系,因此对奶牛生长性状的研究主要针对的是从出生到第一个泌乳期结束这段时间,分为初生、断奶、周岁和头胎分娩这四个时间点。在实际牛场管理过程中,这几个时间点正是牛只转群的时间,饲料成分、管理方式、饲养环境都发生了明显变化,这样的划分方式也与生产实际相契合。所以特别关注初生、断奶、周岁和头胎分娩这四个时间点的体重记录,将它们视为一组。共4组数据。处理数据,去掉异常值后剩余143个个体的4组数据。

分别用3,4,5,6阶Legendre多项式和5、6、7阶的B-spline插值函数(结点个数为3)拟合。对体重、体高的具体分析结果如表1~表3所示。

表中易见,阶数越高,拟合效果越好,而且B-spline函数的拟合效果要比Legendre多项式的好。

由拟合结果可见,一般而言,阶数越高,拟合结果与真值越接近,标准差也越来越小。通过将Legendre多项式和B-spline函数视为自模型,比较可见,前者的5阶和6阶的估计结果要比后者的估计结果有较大的标准差,且后者的7阶的估计结果更接近于真值(表2)。

由于荷斯坦奶牛的产奶量主要在体高的三个时期最大,所以我们只关注了三个阶段的体高,为156~167 cm,此时产奶量最高,120~135 cm时比136~155 cm产奶量高。我们只拟合了这三个阶段的体高的生长轨迹。由于3阶Legendre多项式的拟合效果不好,所以我们略去了该结果(表3)。

表中易见,阶数越高,拟合效果越好,而且B-spline函数的拟合效果要比Legendre多项式的好。

Table 1. Fitting accuracy of body weight growth trajectory for individuals under different models

表1. 不同模型下个体的体重增长轨迹的拟合精度

Table 2. Results under different models

表2. 不同模型的体重检测结果

Table 3. Fitting accuracy of body height growth trajectory for individuals under different models

表3. 不同模型下体高的增长轨迹的拟合精度

4. 总结

本文应用B-spline函数作为随机回归模型的子模型分析了控制动态性状QTL的检测。比较了B-spline函数与Legendre多项式在参数估计(包括均值和标准差)上的精确性,从对比结果可见,前者的5阶和6阶的估计结果要比后者的估计结果有较小的标准差,且前者的7阶的估计结果更接近于真值,说明用B-spline函数估计模型参数更准确。用所提出的方法分析了来源于当地农场奶牛的关于身高体重的实际数据集,对实际育种工作者具有一定的指导意义。

基金项目

2016年度大庆市指导性科技计划项目:调控动态性状基因位点的贝叶斯定位方法的研究与实例分析(zd-2016-089)。

文章引用

周晓晶,何倩毓,张巧生,方铭,闫丽,李洋洋,李琦. 检测控制奶牛动态性状的QTL方法研究——基于B样条插值函数
Model for Detecting QTL Controlling for Dynamic Trait Based on B-Spline Function[J]. 应用数学进展, 2017, 06(04): 583-588. http://dx.doi.org/10.12677/AAM.2017.64068

参考文献 (References)

  1. 1. 杨运清, 李仁杰, 李淑玲. 动态性状遗传参数的估计方法[J]. 畜牧兽医学报, 1996, 27(5): 412-416.

  2. 2. 杨润清, 高会江, 孙华, 等. 远交群体动态性状基因定位的似然分析I. 理论方法[J]. 遗传学报, 2004, 31(1): 1116-1122.

  3. 3. 黄少卿, 崔意旎, 杨润清. 基于Legendre多项式的动态性状功能定位[J]. 自然科学通报, 2005, 15(10): 1183-118.

  4. 4. Rodriguez-Zas, S.L. (2002) Detection of Quantitative Trait Loci Influencing Dairy Traits Using a Model for Longitudinal Data. Journal of Dairy Science, 85, 2681-2691. https://doi.org/10.3168/jds.S0022-0302(02)74354-3

  5. 5. 高会江, 孙华, 等. F_2群体动态性状基因定位的极大似然分析[J]. 东北林业大学学报, 2006, 34(1): 72-77.

  6. 6. 毛杰, 王根林, 余盼. 上海地区荷斯坦奶牛体型性状——产奶性状和体细胞评分的遗传统计分析[J]. 南京农业大学学报, 2015, 38(4): 650-655.

期刊菜单