内蒙古工业大学理学院,内蒙古 呼和浩特



酶是一种具有催化功能的蛋白质,研究酶蛋白质中的二级结构对研究酶的结构及功能有重要作用。本文从酶蛋白质序列出发,以位点氨基酸和20种氨基酸n-gap 2肽组分为参数,首次将矩阵打分的方法用于酶蛋白质中8类二级结构的识别,预测总精度Q8最高达到61.4%。



Indentification of 8-State Secondary Structure in Enzymes Protein

Sujuan Gao

College of Sciences, Inner Mongolia University of Technology, Huhhot Inner Mongolia

Received: Aug. 13th, 2021; accepted: Sep. 3rd, 2021; published: Sep. 15th, 2021


Enzymes are a kind of protein that has catalytic function. The study of secondary structures in enzymes plays an important role in the structure and function of enzymes. Based on enzyme protein sequence information, amino acids of sites and n-gap dipeptide composition of twenty amino acids were selected as parameters. Scoring matrix method was first applied to the identification of 8-state secondary structure in enzymes protein. The prediction accuracy of Q8 reached 61.4%.

Keywords:Enzyme Protein, Protein Secondary Structure, Scoring Matrix

1. 引言


以往对蛋白质二级结构的预测研究大多集中在3态(H, E, C) [1] - [7],近年来,有一些研究已经从3态拓展到8态(G, H, I, E, B, T, S, C),8态二级结构能够比3态二级结构提供更加细致的结构信息,在很多应用中特别重要,但是对8态二级结构的预测仍然相对较少。2002年Pollastri [8] 等人首次用服务器SSPRO8预测了8态蛋白质二级结构,平均预测精度Q8在62%~63%之间;2011年王 [9] 等人用有条件的神经域模型(CNFs)预测8态蛋白质二级结构,平均预测精度Q8达到67.9%,但是,其中G,I,B,S的预测精度非常低,主要原因是在蛋白质数据库中出现的频率较低;2013年从 [10] 等人基于结构的位置特异性打分矩阵(SPSSM8)预测8态蛋白质二级结构,预测精度更高,Q8达到71.7%,G,I,B,S的预测精度也有所提高并且各类预测精度相对平衡;2014年Yaseen [11] 等人利用结构信息和环境特性建立结构模板(C8-SCORPION)对8类蛋白质二级结构预测,预测精度进一步提高,Q8达到78.85%,但是I的预测精度为零,主要由于I太少,常常被错误的归类为H。

本文对酶蛋白质中8类二级结构进行预测,还未见相关报道。酶是一类特殊的蛋白质,是生命中必需和通用的大分子,研究酶类中二级结构对研究酶催化作用的分子机制 [12],酶活性 [13] 等方面有重要意义。

2. 材料和方法

2.1. 数据库

首先从SCOP (http://scop.mrc-lmb.cam.ac.uk/scop/)数据库中整理出序列相似性 < 25%,分辨率 < 3.0 Å的蛋白质4442个,从中按照酶的EC编号 [14] 挑选出2261个酶蛋白质。为了构建更大的数据库,又选取了另外一个数据库EVA,来自http://cubic.bioc.columbia.edu/eva/res/weeks.html#unique (on November 25, 2002),包括2878个蛋白质,序列相似性小于33%,去掉和SCOP中重复的蛋白质632个后,剩余蛋白质2246个,再按照酶的EC编号 [14] 挑选出841个酶蛋白质,所以最后得到的酶蛋白质数量是3102个。依据DSSP [15] 定义,蛋白质二级结构分成8类,H (alpha-helix),G (310 helix),I (π-helix),E (extended beta-strand),B (isolated beta-strand),T (turns),S (bend) and others (C)即H,E,B,G,I,S,T,C 8个字符。


Table 1. The numbers of the 8-state secondary structure

表1. 8类二级结构数量

2.2. 计算方法

2.2.1. 矩阵打分算法(PCSF)

矩阵打分方法在转录因子结合位点预测,超二级结构预测方面取得较好结果 [16] [17] [18] [19]。本文以位点氨基酸和20种氨基酸n-gap 2肽组分(n = 1,即紧邻,n = 2,次紧邻,n = 3,次次紧邻)作为参数,将酶蛋白质中的8类二级结构用矩阵打分的方法分类。

1) 位置权重矩阵(PWM)

考虑到氨基酸频率计数时的标准偏差的影响,我们引入了伪计数概率 [19] 来计算二级结构的位点位置概率,公式如下:

p i j = n i j + N i l N i + N i (1)

这里,以位点氨基酸为参数时,l = 20,j表示20种氨基酸, N i 表示第i个位置上所有氨基酸出现的总数, n i j 表示第i个位置上第j种氨基酸出现的频数;以20种氨基酸n-gap 2肽组分为参数时,l = 400, N i 表示第i个位置上所有氨基酸2肽组分出现的总数, n ij 表示第i个位置上第j种氨基酸2肽组分出现的频数。


w i j = log p i j p 0 j (2)

其中, p 0 j 表示氨基酸j出现的背景概率。以位点氨基酸为参数的矩阵是20行L列;以氨基酸2肽组分为参数的矩阵是400行 L n 列,L为选取的酶蛋白质二级结构序列模式的片断长度。

2) 打分函数

为识别待测序列的二级结构类型, 我们在训练集中建立了8种二级结构相应的位置权重矩阵{WH},{WE},{WB},{WG},{WI},{WS},{WT},{WC}。对于任意一个待测序列,应用位置权重矩阵中每一位置上与所给序列对应氨基酸的矩阵元之和,即打分函数:

s = i = 1 L w i j (3)

这样对于同一待测序列,通过和8种二级结构序列构建的位置权重矩阵{WH},{WE},{WB},{WG},{WI},{WS},{WT},{WC}比对打分, 得到8个不同的分值SH,SE,SB,SG,SI,SS,ST,SC,分值越大,与位置权重矩阵描述的二级结构类型越相似。我们比较8个分值,谁的得分最大,待测序列的结构就被预测为该类。

2.2.2. 系统检验


2.2.3. 精确度评价指标


Q 8 = i = 1 8 c i N × 100 % (4)

其中, c i 表示被正确预测的8态总样本数(i = H, E, B, G, I, S, T, C),N表示蛋白质二级结构8态(H, E, B, G, I, S, T, C)的总样本数。另外一个指标是8种二级结构的正确预测率:

Q i = A i i a i × 100 % (5)

其中, A i i 表示二级结构为i被正确预测的样本数, a i 表示该结构中总样本数。

3. 结果与讨论

在3102个酶蛋白质中,分别截取全长21残基的片段,移动步长为1个残基,将得到的所有21残基片段根据其中心残基的二级结构类型(H, E, B, G, I, S, T, C)分成8个集合。依据公式(1-3)统计21残基片段中21个位点上20种氨基酸出现的频率,建立位置权重矩阵,是个20 × 21维的矩阵;同样,我们也可以统计20种氨基酸n-gap 2肽组分出现的频率,建立位置权重矩阵,当n = 1时是个400 × 20维的矩阵,当n = 2时是个400 × 19维的矩阵,当n = 3时是个400 × 18维的矩阵。这样基于8个集合,我们可以分别建立8个位置权重矩阵即{WH},{WE},{WB},{WG},{WI},{WS},{WT},{WC}。对于一个中心残基待测的21残基片段,通过打分函数计算出SH,SE,SB,SG,SI,SS,ST,SC 8个打分值,找出最大的分值,从而得到预测的结果。采用10交叉检验,计算结果见表2

Table 2. The predicting results of using scoring matrix

表2. 使用矩阵打分的预测结果

表2中可以看出,当n = 1时,即以紧邻关联为参数,预测效果最好,8态预测总精度达到61.4%。我们发现,无论以位点氨基酸还是20种氨基酸n-gap 2肽组分为参数,都是H的预测精度比较好,n = 1时达到79.6%,其次是E、C,此外,I的预测精度几乎为零,原因是由于I太少,常常被错误的归类为H,这也和文献 [11] 是一致的。


4. 结论

本文选取了3102个酶蛋白质,分别截取21个氨基酸残基片段,统计位点氨基酸以及20种氨基酸n-gap 2肽组分在8种二级结构序列中各个位点的位置权重矩阵,然后利用打分函数来预测,取得了比较好的预测效果。但是位点氨基酸及其n-gap 2肽组分还不足以提供足够的二级结构信息,因此,预测精度还有待提升。近几年的研究工作 [20] [21] [22] [23] [24] 表明:除了氨基酸序列信息外,影响其二级结构的形成还取决于其它因素,如残基的亲疏水性和当地环境,接触数,溶剂易访问性的残留物,蛋白质结构类,甚至受到不同物种的影响,所以今后的工作中也可以考虑整合这些信息,进一步提高酶蛋白质8类二级结构预测的精度。




