DNA结合蛋白在细胞内外的各种活动中起着重要作用。本文提出一种新的DNA结合蛋白预测方法(grDNA-Prot),使用20个氨基酸组成频率和基于AAindex数据库531个氨基酸物理化学性质的图形表示法描述蛋白质序列信息。此外,还采用三种特征选择方法来选择最优特征,并通过5折交叉验证,建立了基于支持向量机的DNA结合蛋白识别预测模型。为验证该方法的有效性,本文在独立测试数据集上与其他方法进行了比较。这些结果表明,Hydrophobicity (H)、Physicochemical properties (P)和Alpha and turn properties (A)是有效区分DNA结合蛋白和非DNA结合蛋白的主要氨基酸物理化学性质。 DNA-binding proteins played an important role in various intra- and extra-cellular activities. In this paper, a novel grDNA-Prot method of DNA-binding predictor is proposed, the protein sequence in-formation is described with the probabilities of 20 amino acids and the 531 physicochemical prop-erties indices of 20 amino acids in AAindex database based on the Cylindrical graphical representa-tion. Furthermore, we employ three feature selection methods to select the optimal feature, which is used to establish the model for identify DNA-binding proteins basing on support machine vector with 5-fold cross-validation. In order to test the effectiveness of our method, we compare the accu-racy performance with the other methods in independent test dataset. These results demonstrated that the physicochemical properties of hydrophobicity (H), Physicochemical properties (P) and the alpha and turn properties (A) are primarily responsible for distinguishing between DNA-binding proteins and non DNA-binding proteins.
DNA结合蛋白在细胞内外的各种活动中起着重要作用。本文提出一种新的DNA结合蛋白预测方法(grDNA-Prot),使用20个氨基酸组成频率和基于AAindex数据库531个氨基酸物理化学性质的图形表示法描述蛋白质序列信息。此外,还采用三种特征选择方法来选择最优特征,并通过5折交叉验证,建立了基于支持向量机的DNA结合蛋白识别预测模型。为验证该方法的有效性,本文在独立测试数据集上与其他方法进行了比较。这些结果表明,Hydrophobicity (H)、Physicochemical properties (P)和Alpha and turn properties (A)是有效区分DNA结合蛋白和非DNA结合蛋白的主要氨基酸物理化学性质。
DNA结合蛋白,物理化学性质,图形表示法,特征选择,支持向量机
Yanping Zhang*, Jianwei Ni, Ya Gao, Pengcheng Chen, Xutao Li
School of Mathematics and Physics Science and Engineering, Hebei University of Engineering, Handan Hebei
Received: Feb. 11th, 2021; accepted: Mar. 11th, 2021; published: Mar. 23rd, 2021
DNA-binding proteins played an important role in various intra- and extra-cellular activities. In this paper, a novel grDNA-Prot method of DNA-binding predictor is proposed, the protein sequence information is described with the probabilities of 20 amino acids and the 531 physicochemical properties indices of 20 amino acids in AAindex database based on the Cylindrical graphical representation. Furthermore, we employ three feature selection methods to select the optimal feature, which is used to establish the model for identify DNA-binding proteins basing on support machine vector with 5-fold cross-validation. In order to test the effectiveness of our method, we compare the accuracy performance with the other methods in independent test dataset. These results demonstrated that the physicochemical properties of hydrophobicity (H), Physicochemical properties (P) and the alpha and turn properties (A) are primarily responsible for distinguishing between DNA-binding proteins and non DNA-binding proteins.
Keywords:DNA-Binding Proteins, Physicochemical Properties, Graphical Representation, Feature Selection, SVM
Copyright © 2021 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
DNA结合蛋白在细胞内外各种生命活动中扮演着重要角色,例如:转录调控、DNA复制、DNA包装、DNA修复与重组。这些独立折叠结构域中的蛋白质至少有一个结构基序,并且与DNA有亲和力 [
近年来,研究人员开发出很多基于蛋白质序列预测DNA结合蛋白的计算方法,例如:iDNA-Prot [
然而,如何从蛋白质序列中提取序列顺序信息或关键模式是最重要和最困难的问题。Huang等人 [
蛋白质的结构和功能是由20种天然氨基酸的物理化学和生物化学性质定义的,这些氨基酸是蛋白质的组成成分。AAindex数据 [
本文通过柱状图表示法从531个氨基酸物理化学性质中提取了531个特征,同时还考虑氨基酸组成对蛋白质功能的影响。但是551个特征向量中存在冗余和多重相关性,这会增加预测器学习的难度和降低模型的精确度。为此,本文采用了三种特征选择方法来减少551个特征向量的冗余信息,即基于LASSO的方法 [
为说明grDNA-Prot方法的有效性,本文在独立数据集DNAiset和DNArset上进行了验证分析,并与其他现有DNA结合蛋白预测方法DNAbinder、iDAN-Port、DNA-port进行对比。其中,DNArset数据集中非DNA结合蛋白数量远大于DNA结合蛋白,与生物界中DNA结合蛋白与非DNA结合蛋白的分布情况相符。结果表明,grDNA-Port方法优于现有基于序列的方法(DNAbinder、iDAN-Port、DNA-port)。本文grDNA-Port方法的分析框架如图1所示。
图1. 本文研究框架
本文将DNAdset作为训练集,独立数据集DNAiset、DNArset作为验证集,这三个数据集被使用于多个DNA结合蛋白预测研究中 [
特征包括氨基酸组成和氨基酸物理化学性质两类。许多氨基酸物理化学性质已经成功地应用于蛋白质长无序区、无序蛋白质结合残基的晶体结构注释、RNA结合残基的晶体结构注释、DNA结合残基的晶体结构注释等蛋白质结构和功能预测,例如氨基酸的疏水性、溶剂可及性、电荷和自由能。氨基酸的物理化学性质在蛋白质折叠和蛋白质与DNA相互作用中起着重要作用,本文使用531组氨基酸指数来表示氨基酸的各种物理化学性质。图形表示法 [
下面将定义柱面图形表示法。20个氨基酸分布在圆柱体的底圆上,每个氨基酸在圆柱表面形成一条线。这种几何结构显示了氨基酸残基在蛋白质序列中的组成和分布。根据531个理化性质指标值对20个氨基酸进行排序。我们使用柱坐标来显示单位圆柱表面的蛋白质序列。
柱面坐标和笛卡尔坐标之间的转换如公式1所示:
x n = cos ( 2 π 20 i n ) , y n = sin ( 2 π 20 i n ) , z n = n N (1)
其中,N表示蛋白质序列长度, n = 1 , 2 , 3 , ⋯ , N 表示蛋白质序列中第n个氨基酸, i n = 0 , 1 , 2 , ⋯ , 19 表示第n个氨基酸具体指标值。以AAindex数据库中氨基酸指数BHAR880101为例(若两个氨基酸指标值相同则按字母顺序排列),20个氨基酸的排序为:M < W < F < H < C < A < L < V < Y < T < I < N < K < Q < E < S < P < D < R < G。假设蛋白质序列为:
MKRRIRRERNKMAAAKSRNRRRELTDTLQAETDQLEDEKSALQTEIANLLKEKEKL
则蛋白质序列的柱状图表示如图2所示:
图2. 蛋白质序列的柱状图表示
为了更直观地了解蛋白质序列中隐含的生物学特性,并分析它们的相似性与相异性,对蛋白质序列的圆柱形序列求协方差矩阵的最大特征值。协方差矩阵如公式2所示:
P = [ S x x S x y S x z S y x S y y S y z S z x S z y S z z ] (2)
其中:
S x x = ∑ n ( x n − x ¯ ) 2 , S x y = ∑ n ( x n − x ¯ ) ( y n − y ¯ )
S y y = ∑ n ( y n − y ¯ ) 2 , S x z = ∑ n ( x n − x ¯ ) ( z n − z ¯ )
S z z = ∑ n ( z n − z ¯ ) 2 , S y z = ∑ n ( y n − y ¯ ) ( z n − z ¯ )
同时,定义 F = max { λ i } , λ i 为协方差矩阵的特征值P。根据20个氨基酸的531个物理化学性质指标值,一条蛋白质序列通过上述方法可以转换成531个数值特征。另外,将蛋白质序列中20个氨基酸频率作为组成特征。
本文共得到551维特征用于DNA结合蛋白的预测,表示为 X = ( X 1 , X 2 , ⋯ , X 549 ) 。并对特征进行标准化处理,标准化公式如式所示
Y i = X i − X ¯ i V a r ( X i ) (3)
其中, X ¯ i 和 Var ( X i ) 分别为 X i 的平均值与标准差。
支持向量机是DNA结合蛋白预测领域中应用最广泛的机器学习算法。机器学习算法的原理是在高维特征空间中构造一个超平面,将数据点分为两类或者多类。基于径向基核函数的支持向量机算法已经广泛应用于蛋白质ATP结合位点预测等研究 [
K ( x i , y j ) = exp ( − γ ‖ x i − y i ‖ 2 ) (4)
其中 γ 为径向基核函数的宽度。本文使用网格搜索和交叉验证确定参数C与 γ ,两个参数的取值范围为 2 i ( i ∈ { − 10 , − 9 , − 8 , ⋯ , 8 , 9 , 10 } ) 。
本文选择支持向量机算法作为分类器,使用五折交叉验证避免过拟合出现,并获得低均方误差的可靠结果。使用的评价指标为Accuracy (ACC)、Sensitivity, Precision, Specificity, F-measure and Matthews correlation coefficient (MCC) [
ACC = TP + TN TP + TN + FP + FN × 100 %
Sensitivity = TP TP + FN × 100 %
Precision = TP TP + FP × 100 %
F-measure = 2 × TP 2 × TP + FN + FP × 100 %
MCC = TP × TN − FP × FN ( TN + FN ) ( TN + FP ) ( TP + FN ) ( TP + FP ) × 100 %
其中,TP和TN分别代表准确预测为DNA结合蛋白和非DNA结合蛋白的例数,FP代表预测为DNA结合蛋白的非DNA结合蛋白例数,FN代表预测为非DNA结合蛋白的DNA结合蛋白例数。TP、TN越高,FP、FN越低,代表模型预测效果更好。
为降低551维特征向量之间的冗余、提高预测模型精度,本文在训练数据集上(DNAdset)进行特征选择,得到一组非冗余的特征子集。本文比较了三种特征选择方法:LASSO方法、基于Filter的方法和基于Wrapper的方法,使用网格搜索和5折交叉验证确定每种方法中的最优参数,从而实现最优化预测性能(以AUC为评价指标)。第一种方法是利用LASSO回归方法得到特征间无线性相关性的特征子集。第二种方法先使用最大相关度最小冗余度(Maximum Relevance Minimum Redundancy, mRMR)方法对特征进行排序 [
在这三种特征选择方法的基础上,采用基于AUC性能指标值的支持向量机分类器的5次交叉验证,得到了基于DNAdset的最优特征选择方法。详细结果见表1。
Feature selection methods | Machine learning Classifier | AUC |
---|---|---|
LASSO | SVM (C = 6, γ = −5) | 0.9523 |
Filter-based (mrmr) | SVM (C = 9, γ = −8) | 0.9384 |
Wrapper-based (RF-SVM) | SVM (C = 10, γ = −9) | 0.9546 |
表1. 三种特征选择方法在数据集DNAdset上基于5折交叉验证和支持向量机的AUC结果
在表1中,结果表明,与其他两种基于支持向量机(SVM)分类器的5次交叉验证的特征选择方法相比,Wrapper-based (RF-SVM)特征选择方法具有更高的AUC值。在独立数据集(DNAiset和DNArset)上,采用支持向量机的最优参数和阈值0.49 (基于AUC值)来测试方法的性能。此外,利用Wrapper-based (RF-SVM)算法对选取的33个特征,在阈值0.44范围内得到ACC、MCC、精密度、灵敏度、特异度和F-测度值。具体评价结果见表2。此外,DNAdset、DNAiset和DNArset的ROC曲线如图3所示。
Datasets | threshold value | AUC | ACC | MCC | F-measure | Sensitivity | Specificity | Precision |
---|---|---|---|---|---|---|---|---|
DNAdset | 0.44 | 0.9546 | 0.8896 | 0.7819 | 0.8940 | 0.9307 | 0.8485 | 0.8600 |
DNAiset | 0.44 | 0.8698 | 0.8277 | 0.6169 | 0.7463 | 0.7732 | 0.8543 | 0.7212 |
DNArset | 0.44 | 0.7383 | 0.6055 | 0.1776 | 0.1923 | 0.7732 | 0.5947 | 0.1098 |
表2. 预测模型在DNAdset、DNAiset和DNArset上的性能表现
图3. 在数据集DNAdset、DNAiset和DNArset上的ROC曲线
为了研究两类特征对DNA结合蛋白和非DNA结合蛋白的区分能力是否具有统计学意义,本文采用双侧t检验,显著性水平为0.05,33个特征中有24个(24/33 = 72.7%)具有显著性。因此,所选特征对区分DNA结合蛋白和非DNA结合蛋白具有统计学意义。
在选取的33个特征中,包含两种特征类型。其中属于氨基酸的物理化学性质的特征较多,为19个;属于氨基酸组成的较少,为14个。结果表明,融合后的33个特征会提高对DNA结合蛋白的预测性能(如图4所示),两类特征均对DNA结合蛋白的预测有重要影响。具体评价结果见表3。
在AAindex数据库(Tomii和Kanehisa,1996)中,理化性质指标基于最小生成树方法可以分为六类:Alpha and turn properties (A)、Beta propensity (B)、Composition (C)、Hydrophobicity (H)、Physicochemical properties (P)和Other properties (O)。将所选择的19个基于氨基酸物理化学性质的特征与六类属性对比表明(如表4所示),蛋白质序列中氨基酸残基的Hydrophobicity (H)、Physicochemical properties (P)和Alpha and turn properties (A),是区分DNA结合蛋白和非DNA结合蛋白的主要原因。
为了验证grDNA-Prot方法的有效性,将grDNA-Prot方法与现有的三个web服务器(DNAbinder、iDNA-Prot和DNA-Prot)在两个独立测试数据集DNAiset和DNArset上进行了性能比较。详细结果见表5。对于DNAiset,grDNA-Prot对ACC、AUC、MCC和F-measure的性能评价高于DNAbinder和DNA Prot。
图4. 在DNAdset中三种类型特征的比较
Feature information | AUC | ACC | MCC | Sensitivity | Precision | F-measure |
---|---|---|---|---|---|---|
Composition of AAs | 0.9477 | 0.8853 | 0.7744 | 0.9351 | 0.8504 | 0.8907 |
Physicochemical | 0.9351 | 0.8701 | 0.7443 | 0.9221 | 0.8353 | 0.8765 |
33 features | 0.9546 | 0.8896 | 0.7819 | 0.9307 | 0.8600 | 0.8940 |
表3. 在DNAdset中三种类型特征的性能
A | B | C | H | P | O | |
---|---|---|---|---|---|---|
BUNA790101 | 1 | 0 | 0 | 0 | 0 | 0 |
CHAM820102 | 0 | 0 | 0 | 1 | 0 | 0 |
EISD860102 | 0 | 0 | 0 | 1 | 0 | 0 |
FASG760103 | 1 | 0 | 0 | 0 | 0 | 0 |
FAUJ880103 | 0 | 0 | 0 | 0 | 1 | 0 |
FUKS010104 | 0 | 0 | 1 | 0 | 0 | 0 |
HOPT810101 | 0 | 0 | 0 | 1 | 0 | 0 |
LEVM760101 | 0 | 0 | 0 | 1 | 0 | 0 |
MAXF760104 | 0 | 0 | 0 | 0 | 0 | 1 |
MEEJ800101 | 0 | 0 | 0 | 1 | 0 | 0 |
MITS020101 | 0 | 0 | 0 | 0 | 1 | 0 |
MIYS990101 | 0 | 0 | 0 | 1 | 0 | 0 |
OOBM770105 | 0 | 0 | 0 | 0 | 1 | 0 |
RACS770103 | 0 | 0 | 0 | 1 | 0 | 0 |
RADA880103 | 0 | 0 | 0 | 0 | 1 | 0 |
---|---|---|---|---|---|---|
ROSG850101 | 0 | 0 | 0 | 0 | 1 | 0 |
TANS770101 | 1 | 0 | 0 | 0 | 0 | 0 |
WOLR790101 | 0 | 0 | 0 | 1 | 0 | 0 |
ZIMJ680104 | 0 | 0 | 0 | 1 | 0 | 0 |
TOTAL | 3 | 0 | 1 | 9 | 5 | 1 |
表4. 19个基于氨基酸物理化学性质的特征在六类属性中分布情况
Datasets | Methods | ACC | AUC | MCC | Sensitivity | Specificity | Precision | F-measure |
---|---|---|---|---|---|---|---|---|
DNAiset | DNAbinder | 0.709 | 0.809 | 0.459 | 0.845 | 0.643 | 0.536 | 0.656 |
iDNA-Prot | 0.889 | - | 0.752 | 0.659 | 1.000 | 1.000 | 0.795 | |
DNA-Prot | 0.824 | 0.732 | 0.589 | 0.526 | 0.969 | 0.894 | 0.662 | |
grDNA-Prot | 0.828 | 0.870 | 0.617 | 0.773 | 0.854 | 0.721 | 0.746 | |
DNArset | DNAbinder | 0.3845 | - | 0.1007 | - | - | - | 0.143 |
iDNA-Prot | 0.614 | - | 0.132 | - | - | - | 0.172 | |
DNA-Prot | 0.735 | - | 0.152 | - | - | - | 0.197 | |
grDNA-Prot | 0.606 | 0.738 | 0.178 | - | - | - | 0.192 |
表5. grDNA-Prot在独立测试集DNAiset和DNArset上与其他方法的预测结果比较
此外,在DNArset的真实环境中,grDNA-Prot比DNAbinder、iDNA-Prot、DNA-Port获得更高的MCC,比DNAbinder、iDNA-Prot获得更高的F-measure。本文提出方法的性能接近iDNA-Port和DNA-Prot,但在两个数据集上的综合效果最优。这些结果表明grDNA-Prot方法可以有效地鉴定DNA结合蛋白。
DNA结合蛋白在细胞内外各种生命活动中起着重要的作用,现今已经研究出多种预测DNA结合蛋白的计算方法。本文提出的方法包含20维氨基酸组成频率特征和531维基于柱形图表示法的氨基酸物理化学性质特征,使用基于Wrapper的方法对融合后特征进行特征选择,选择出包含这两种类型的33维特征,最后建立了基于支持向量机的预测模型。同时发现,Hydrophobicity (H)、Physicochemical properties (P)和Alpha and turn properties (A)是区分DNA结合蛋白和非DNA结合蛋白的主要理化性质。因此,研究结果表明所选取的特征可以更好地解释绑定机制。
此外,通过在两个独立测试数据集(DNAiset和DNArset)上与其他方法(DNA-prot、iDNA-prot和DNAbinder)的比较,证明了grDNA-Prot方法的有效性。因此,grDNA-Prot可以相对准确地预测DNA结合蛋白。
本文得到了河北省自然科学基金项目(F2019402078)、河北省高等学校科学技术研究项目(QN2018235)和河北省研究生创新资助项目(CXZZSS2021092)的支持,在此表示感谢。
张艳萍,倪建威,高 雅,陈鹏丞,李旭涛. grDNA-Prot:基于氨基酸物理化学特性和支持向量机的DNA结合蛋白预测grDNA-Prot: The Prediction of DNA-Binding Proteins Based on Physicochemical Properties of Amino Acids and Support Vector Machine[J]. 计算生物学, 2021, 11(01): 1-11. https://doi.org/10.12677/HJCB.2021.111001