核小体是染色质结构的基本单位,其在整条DNA序列上的定位分布情况,对于真核生物的基因表达调控起关键作用。用机器学习方法预测核小体定位成为近年来的研究热点。以DNA序列6-mer组分为参数,采用我们提出的多样性增量特征选择技术,筛选出8个6-mer作为分类特征。进一步,采用支持向量机算法,10折交叉检验的总精度达到98.2%。结果表明,核小体定位序列和连接序列核苷k-mer组分的特异化分布,是影响酵母核小体定位的主要因素。 Nucleosome is a basic unit of chromatin structure. Its location and distribution on the entire DNA sequence play a key role in the regulation of gene expression in eukaryotes. The prediction of nucleosome positioning with machine learning method has become a hot topic in recent years. Taken the 6-mer component of DNA sequence as the parameter, we used the increment of diversity feature selection technique proposed by us to select eight 6-mers as the classification characteristics. Furthermore, the total accuracy of the 10 fold cross validation is 98.2% using the support vector machine algorithm. The results show that the specific distribution of the k-mer component in the nucleosomal and linker sequences is the main factor that affected nucleosome positioning in yeast.
胡世赛,陈宇翔,张颖,吕军*
内蒙古工业大学理学院,内蒙古 呼和浩特
收稿日期:2018年3月30日;录用日期:2018年4月16日;发布日期:2018年4月23日
核小体是染色质结构的基本单位,其在整条DNA序列上的定位分布情况,对于真核生物的基因表达调控起关键作用。用机器学习方法预测核小体定位成为近年来的研究热点。以DNA序列6-mer组分为参数,采用我们提出的多样性增量特征选择技术,筛选出8个6-mer作为分类特征。进一步,采用支持向量机算法,10折交叉检验的总精度达到98.2%。结果表明,核小体定位序列和连接序列核苷k-mer组分的特异化分布,是影响酵母核小体定位的主要因素。
关键词 :核小体定位序列,多样性增量,特征选择技术
Copyright © 2018 by authors and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
核小体是真核生物特有的DNA包装方式,是染色质结构的基本组成单位。约147bp的DNA序列紧密缠绕在组蛋白8聚体上约1.65圈,形成核小体核心颗粒(nucleosome core particle),这个核心颗粒阻断了大部分蛋白质分子与DNA的接触 [
随着对表观遗传学研究热度的提升,基于DNA序列信息或序列依赖的各种性质的核小体定位预测模型不断被提出 [
采用实验手段测定基因组核小体定位情况耗时耗力,如果能预先由生物信息学方法给出一个基因组核小体定位预测的图谱,可能为实验的实施提供预设的靶标,进而节约实验成本。此外,基于生物信息学方法的核小体定位预测,还能发现隐藏在碱基序列中的规律性信息,为解开生命奥秘提供新的线索。因此,在分子生物学研究中,生物信息学手段是必要的。本文,在Chen等使用的酵母核小体定位数据集上 [
实验确定的酵母核小体定位数据取自Lee等的实验结果 [
由Segal组的研究结论可知 [
显然,当k = 6时,提取的特征总数将达到4096个。如果这些特征均输入分类器用于分类,严重的过拟合现象将不可避免。因此,应用特征选择技术实现降维是必要的步骤。在应对小样本或高维数据的模式识别问题时,特征选择是许多机器学习方法的重要组成部分。特征选择技术的主要目标是,从整体特征集中发现一个能够有效描述数据的特征子集。因此,对于从序列提取到的4096个6-mer频次特征,我们要应用特征选择技术对其进行筛选,选择有效分类信息,使模型具有更好的鲁棒性。
最近,我们研究组发展了一种新的特征选择技术,称为多样性增量特征选择(feature selection based on incremental of diversity, FSID) [
给定一个两分类问题Ci(i = 1,2),特征X出现在类别C1的频次记为n,除特征X以外的其它特征出现在类别C1的频次记为 n ¯ 。则特征X在C1类别中的多样性量定义为
D ( X , C 1 ) = ( n + n ¯ ) log 2 ( n + n ¯ ) − n log 2 ( n ) − n ¯ log 2 ( n ¯ ) (1)
类似地,特征X出现在类别C2的频次记为m,其它特征出现在类别C2的频次记为 m ¯ 。按照与(1)式同样的方式,可以分别定义特征X在C2类别中的多样性量D(X,C2),以及在混合系统C1 + C2中的多样性量D(X,C1 + C2)为
D ( X , C 2 ) = ( m + m ¯ ) log 2 ( m + m ¯ ) − m log 2 ( m ) − m ¯ log 2 ( m ¯ ) (2)
和
D ( X , C 1 + C 2 ) = ( n + m + n ¯ + m ¯ ) log 2 ( n + m + n ¯ + m ¯ ) − ( n + m ) log 2 ( n + m ) − ( n ¯ + m ¯ ) log 2 ( n ¯ + m ¯ ) (3)
特征X在C1和C2类别之间的多样性增量(increment of diversity, ID)定义为
I D ( X ) = D ( X , C 1 + C 2 ) − D ( X , C 1 ) − D ( X , C 2 ) (4)
由以上多样性增量的定义可以看出,当给定样本集时,某个特征X在C1和C2两个类别中出现的频次差异越大,ID(X)的值越大,而频次差异越小,ID(X)的值越小。如果特征X是类别无关的,那么一般地,特征X在两个类别中出现的频次应几乎无差别。因此,ID(X)就可作为特征X是否与类别相关的度量。也就是说,如果ID(X) > ID(Y),表明特征X与类别相关性要强于特征Y。当这种类别相关性的强度达到我们的预期(ID0)时,即当ID(X) > ID0,特征X被选择,ID0为特征选择阈值。阈值ID0是以选出的特征使得预测结果总精度最大化来确定的。这个特征选择方案被我们称为多样性增量特征选择技术(FSID)。
预测算法采用支持向量机,算法实现采用R语言“e1071”包中的svm函数完成 [
分类性能采用如下4个指标度量,分别是敏感性(Sensitivity, Sn),特异性(Specificity, Sp),总精度(Accuracy, ACC)和马氏相关系数(Matthews correlation coefficient, MCC)。这些量定义如下
Sn = TP TP + FN , Sp = TN TN + FP , ACC = TP + TN TP + FN + TN + FP , MCC = TP × TN − FN × FP ( TP + FP ) × ( TP + FN ) × ( TN + FP ) × ( TN + FN ) (5)
这里,TP是被正确预测的核小体定位序列数,FN是被错误预测的核小体定位序列数,TN是被正确预测的连接序列数,FP是被错误预测的连接序列数。
上面4个分类性能评价指标分别表明了一个预报器的四个不同方面的性能。Sn是在全体正样本中能够被正确预测为正样本的频率,它用来衡量一个预报器识别正样本的能力。类似地,Sp是用来衡量一个预报器识别负样本的能力。ACC测度正确识别全部样本的能力。MCC是预测性能的一个最佳平衡测度。MCC的取值范围是[−1,+1]。MCC = 0表明预报器实际执行了一个随机猜测,也即它的预测结果与样本的真实分类标签不相关。MCC = ±1表明预报器是完美的。同时给出一个预报器的4个性能指标,可以较全面地反映出预报器的输出性能。
基于核小体序列中6-mer频数信息,采用FSID方法对酵母核小体定位序列和连接序列进行分类预测特征选择。将全部数据样本随机分割为10份,保证每份中正负集样本数之比大致与正负总样本数之比相当。合并其中的9份样本作为训练样本。在训练样本中,统计所有特征出现的频次,采用FSID方法选择ID值大于阈值ID0的特征,然后轮换训练样本。如果10次轮换某一特征均被选出,则特征被最终选择。将最终选择出的特征送到SVM中进行核小体定位序列预测。本文中当阈值ID0 = 615时,预测精度达到
Method | Accuracy | Sn | Sp | MCC | TP | FP | FN | TN |
---|---|---|---|---|---|---|---|---|
Our method | 98.2% | 99.1% | 97.7% | 0.963 | 1322 | 31 | 12 | 1012 |
Chen’s method [ | 98.1% | 98.2% | 98.0% | 0.963 | - | - | - | - |
iNuc-PhysChem [ | 96.7% | 97.2% | 94.3% | 0.936 | - | - | - | - |
表1. 10折交叉检验预测结果
最大,此时选取出8个特征参数分别是AAAAAA、AAAAAT、ATATAT、ATTTTT、TAAAAA、TATATA、TTTTTA和TTTTTT。
可以看到,选出的8个特征均为poly(dA:dT)。进一步的分析表明,这些特征均来自连接序列。或者说在酵母基因组中,核小体之间的连接序列中普遍地存在着poly(dA:dT)片段,而核小体定位序列中则罕有。Poly(dA:dT)序列是刚性的,不利于核小体的形成 [
采用10-fold交叉检验,酵母核小体定位序列预测结果列于表1。由表1结果可见,我们的模型对酵母核小体定位序列的预测敏感性(Sn)是99.1%,特异性(Sp)为97.7%,总精度(ACC)为98.2%,马氏相关系数(MCC)值达到0.963。我们的结果与Chen等基于序列依赖的二核苷变形能模型的结果,具有相当的精度 [
Awazu提出一个多元回归模型 [
从以上的分析看出,我们给出的模型具有参数少且精度高的特点,更少的参数将使得模型具有更高的鲁棒性和泛化能力。这个良好的性能得益于我们采用了高效的特征选择技术FSID。
本文,我们采用多样性增量特征选择技术FSID,对以核苷六联体(6-mer)为参数的特征集进行筛选,筛选出8个poly(dA:dT)特征对酵母核小体定位序列进行分类预测,在序列相似性低于30%的数据集上,10折交叉检验获得98.2%的高精度结果。模型具有数学方法简单,使用参数少,预测精度高的优点。模型给出的结果还表明,酵母核小体之间的连接序列的主要序列组成特点是,存在普遍的poly(dA:dT)片段。这些片段具有很强的刚性,不易弯曲,难于形成核小体结构。
尽管由FSID方法所选择的特征与类别之间显著相关,但FSID方法中并未考虑特征与特征之间的相关性。如何将减少特征之间相关性的算法也融合在现有的FSID模型中,是今后研究中需要解决的问题。
本项目由内蒙古自治区自然科学基金项目(2015MS0331和2016MS0306)资助。
胡世赛,陈宇翔,张 颖,吕 军. 酵母基因组核小体定位序列预测 Prediction of Nucleosome Positioning Sequence for Yeast Genome[J]. 生物物理学, 2018, 06(01): 1-6. https://doi.org/10.12677/BIPHY.2018.61001