设为首页 加入收藏 期刊导航 网站地图
  • 首页
  • 期刊
    • 数学与物理
    • 地球与环境
    • 信息通讯
    • 经济与管理
    • 生命科学
    • 工程技术
    • 医药卫生
    • 人文社科
    • 化学与材料
  • 会议
  • 合作
  • 新闻
  • 我们
  • 招聘
  • 千人智库
  • 我要投搞
  • 办刊

期刊菜单

  • ●领域
  • ●编委
  • ●投稿须知
  • ●最新文章
  • ●检索
  • ●投稿

文章导航

  • ●Abstract
  • ●Full-Text PDF
  • ●Full-Text HTML
  • ●Full-Text ePUB
  • ●Linked References
  • ●How to Cite this Article
Hans Journal of Computational Biology 计算生物学, 2011, 1, 1-3
http://dx.doi.org/10.12677/hjcb.2011.11001 Published Online September 2011 (http://www.hanspub.org/journal/hjcb/)
Copyright © 2011 Hanspub HJCB
Recognition of Subcellular Localization of Proteins Using
of Sequences Fusion
Yun Jia
Department of Physics Experiment, School of Basic Science Inn er Mongolia University of Technology, Hohhot
Email: yunbao2004haijun@163.com
Received: Sep. 18th, 2011; revised: Sep. 27th, 2011; accepted: Sep. 29th, 2011.
Abstract: Functional annotation of unknown proteins is a major goal in proteomics. A key annotation is the
prediction of a protein’s subcellular localization. We used the method of Increment of Diversity with Quad-
ratic Discriminant analysis (IDQD) to predict subcellular localization of proteins which are recognized by the
four plant categories and three non-plant and obtained accuracy 87.4(±0.5)% and 91.2(±0.2)%, respectively
in 5-fold cross-validation test. Our result is better than comparable existing methods.
Keywords: Subcellular Localization; F-Value; Quadratic Discriminant Analysis
基于序列关联的蛋白质亚细胞定位识别
贾 芸
内蒙古工业大学理学院物理实验中心,呼和浩特
Email: yunbao2004haijun@163.com
收稿日期:2011 年9月18日;修回日期:2011 年9月27 日;录用日期:2011 年9月29 日
摘 要:对未知蛋白的功能注释是蛋白质组学的主要目标。一个关键的注释是蛋白质亚细胞定位的预
测。应用基于序列关联的二次判别分析方法进行蛋白质亚细胞定位预测,对 4个植物定位类型进行
5-fold 交叉检验。
关键词:亚细胞定位;F值;二次判别分析
1. 引言
在后基因组时代随着蛋白质序列雪崩式的被测
出,各种基于序列信息的方法被用于预测蛋白质亚细
胞定位识别[1,2]。本文作者在研究生学习期间工作的基
础上继续引入了 F值参量结合多样性增量进行二次判
别分析(IDQD)[3]方法对蛋白质亚细胞定位进行预测获
得了一系列结果。
2. 数据集与方法
2.1. 数据集
本文使用了与 TargetP[4] 相同的数据集(http://
www.cbs.dtu.dk/services/TargetP)。应用了植物类数据
共4类940 个蛋白质序列,包括叶绿体(chloroplast
transit peptide, cTP),线粒体(mitochondrial targeting
peptide, mTP),分泌途径(secretory pathway signal pep-
tide, SP)和其它(other, OT)等4个类别。SP 类由内质网
(endoplasmic reticulum, ER),细胞外(extracellular space,
EX),高尔基体(golgi apparatus, GO),溶酶体(lysosome,
LY),质膜(plasma membran e, PM)和液泡(vacuole, VA)
等类别组成.OT 类由细胞质和细胞核蛋白组成.各类别
的蛋白序列数详细情况见表 1。
Table 1. The number of protein sequences listed for each dataset
according to localization
表1. 依据亚细胞定位分类序列数据表
The number of protein sequences
Set cTP mTP SP OT
Plant 141 368 269 162
*基金项目:内蒙古工业大学校基金(ZS201124)。
贾芸 基于序列关联的蛋白质亚细胞定位识别
2 |
2.2. 方法
2.2.1. F值
F值[5]的概念是在研究 DNA 序列间的统计关联时
提出的,我们引用至蛋白质序列。令序列中氨基酸 i
的出现概率为 pi(i = A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,
T,V,W,Y),一对氨基酸二联体 出现在相邻位点的联
合概率为 ,
,ij
,ij
P
,ij i
j
i
Ppp (1)
j
i
p为单氨酸 i后出现单氨酸 j的条件概率。引入信息
熵
2
log i
p
i
i
Hp
 (2)
和一阶信息冗余
1max 2
2lo
i
g
p
i
i
DH Hp
 (3)
1
D描述序列中氨基酸分布相对于随机等概率分布的
偏离。引入马尔可夫熵
M
H
(平均条件熵),
*
2
*log
j
i
p
Mi
ji
i
Hpp
 (4)
和二阶信息冗余 ,
2
D
22
,
2lo
ij
g
p
Mij
ij
DHHH p 
 (5)
2
D描述序列中氨基酸关联相对于独立序列的偏离。引
入两条氨基酸序列 A、B的关联,
  
 
22
22
2AB
AB AB
AB
AB AB
nn
DABDA DB
nn nn
F
nn
DA DB
nn nn













2
(6)
这里 、
A
n
B
n分别表示氨基酸序列 A、B的长度。
2.2.2. 信息的多样性增量(ID)处理
一般的,由已知的知识或经验可以从不同的侧面
对样本提取多组特征信息。设一个样品的一组特征信
息的某种分布可以由一个高维特征向量来表示,向量
元素用整数表示。例如一条氨基酸序列可以用一个
400 维的向量表示,其中的向量元素为紧邻二联体在
序列中出现频次的一个分布。第l个样本的第 k组特
征的特征向量为 l
k
X
,该向量的第i个元素为 l
ki ,则
这组特征的多样性量定义为(1)式[6,7]。通常一组特征不
是用样品本身就能表示清楚,而必须通过和标准样品
(称为标准源)的比较来确定,亦即由样品特 征的多样
性分布和标准源特征的多样性分布的比较来确定。这
时可以像(3)式那样通过定义待测样品与标准样品之
间的多样性增量来度量它们的差异[7
n
]。




12
22
1
,,,
loglog
ll l
kkkkkd
d
lll
kkki
i
DDnnn
NNnn





l
k
X
l
ki
i
(7)
ll
kk
i
Nn





这里,d为特征向量 l
k
X
的维数。
进一步 s个标准样品(训练集)的这组特征多样性量为




12
22
1
,,,
loglog
kkkkkd
d
kkki
i
DDmmm
ki
M
Mm





k
S
m
i
(8)
kk
i
M
m





这里,Sk为标准特征向量,
1l
m

。则待测样品
与标准样品之间第 k组特征的多样性增量定义为:
sl
ki ki
n






k
ID ,kk
DDD 
ll l
kkk kkkk
X
SXSXS
(9)
ID 表征了样品 X和标准源信息参数分布的差异性,它
提供了样品 X特征的数量表示.
2.2.3. 信息的二次判别函数(QD)整合
对于一个 c分类问题,假设对一个样品我们可以
提取它的 r组特征,构成一个 r维的判别向量,则二
次判别函数由下面的(4)式给出。

11
ln ln
22
iii
gR P

i

 (10)

1
T
iii
RR

i
 

 (i = 1, 2,,c)
其中 Pi为第 i类别的训练集的样品总数, i
μ
是第
i类别的训练集中R的平均向量, i

是第 i类别的R
与i
μ
之间的马氏距离, i

是第 i类别的 维协方差
矩阵,
rr
i

是矩阵 i

的行列式值。(4)式由 Bayes 理论
导出。文献[8]和[9]的IDQD 算法均是针对两分类问题
的。在两分类问题时,分类是在ξ空间完成的,这时
最佳分类域值可以由经验确定,往往域值 ξ0选择不是
0[8,9]。将 IDQD 算法应用于蛋白质定位或蛋白质二级
结构预测这样的多分类问题时,判别规则要做一些小
Copyright © 2011 Hanspub HJCB
贾芸 | 基于序列关联的蛋白质亚细胞定位识别
Copyright © 2011 Hanspub HJCB
3
Table 5. Table 2 corresponding forecast result
的调整。多分类问题分类决策规则由文献[10]改为(11)
式:
表5. 表2对应预测结果
 

1234
max,, ,
k
g
R gRgRgRgR (11)
cTP mTP SP OT
cTP89/94/96/93
mTP 330/326/324/332
SP 240/239/233/237
OT 119/119/113/123
对于植物用(11)。即对每一类样品 R都可以通过
计算二次判别函数

k
g
R,如 果

k
g
R最大,则 R归
为第 k类。
Table 6. Table 3 corresponding forecast result
表6. 表3对应预测结果
cTP mTP SP OT
cTP89/85/92/94
mTP 339/333/332/329
SP 238/243/240/242
OT 126/130/128/128
2.2.4. 参数选取
基于 N端序列的结构特征,本文选取了计算两条
序列紧邻二联体关联 F值和 N端信号特征[3],计算了
节选不同氨基酸片断的结果见表 2;此外选取了计算
两条序列间隔两个氨基酸的次次紧邻二联体关联 F值
和N端信号特征进行计算,见表 3;最后计算了紧邻
F值和次次紧邻 F值及 N端作多样性增量的 QD 整合,
见表 4。
Table 7. Table 4 corresponding forecast result
表7. 表4对应预测结果
cTP mTP SP OT
cTP 57
mTP 323
SP 226
OT 92
3. 结果和讨论 4. 致谢
3.1. 结果 感谢内蒙古工业大学校基金的资助。感谢吕军教
授的悉心指导。
作为对预测算法的预测能力的检验,我们采取了
5-fold 交叉检验,结果分别见表 5~7。
参考文献 (References)
3.2. 讨论
[1] K. Nakai. Protein sorting signals and prediction of subcellular
localization. Advances in Protein Chemistry, 2000, 54: 277-344.
由上述结果可知加入 F值参数后预测结果没有显
著降低和明显提高,但降低了参数种类,说明F值还
是有意义的参数,以后将试图添加诸如结构类信息。
[2] K. C. Chou, H. B. Shen. Review: Recent progresses in protein
subcellular location prediction. Analytical Biochemistry, 2007,
370(1): 1-16.
[3] 贾芸, 赵巨东, 吕军. 基于N端信号的蛋白质亚细胞定位识别
[J]. 内蒙古工业大学学报(自然门科学版), 2008, 27(2): 81-87.
[4] O. Emanuelsson, H. Niclsen, S. Brunak, et al. Predicting subcellu-
lar localization of proteins using amino acid terminal amino acid
sequence. Journal of Molecular Biology, 2000, 300(4): 1005-1016.
Table 2. The parameter of F value, ID value sele c tion
表2. F值参数、ID参数的选取
[5] 罗辽复. 生命进化的物理观[M]. 上海: 上海科学技术出版社,
2000: 169-189.
F值参数 (1,50) (1,50) (1,30) (1,50)
ID 参数 (2,40) (2,20) (2,20) (2,80) [6] R. R. Laxton. The measure of diversity. Journal of theoretical
biology, 1978, 70(1): 51-67.
[7] 徐克学. 生物数学[M]. 北京: 科学出版社, 1999: 278-286.
Table 3. The parameter of F value, ID value selection [8] L. R. Zhang, L. F. Luo. Splice site prediction with quadratic
discriminant analysis using diversity measure. Nucleic Acids
Research, 2003, 31(21): 6214-6220.
表3. F 值参数、ID 参数的选取
F值参数 (1,50) (1,40) (1,40) (1,40)
ID 参数 (2,90) (2,30) (2,70) (2,130) [9] 吕军, 罗辽复. 人类PolII 启动子的识别[J]. 生物化学与生物
物理进展, 2005, 32: 1185-1191.
[10] 边肇祺, 张学工等. 模式识别[M]. 北京: 清华大学出版社,
2004: 9-42.
Table 4. The parameter of F value, ID value selection
表4. F 值参数、ID 参数的选取
F值参数(紧邻) (2,40)
F值参数(次次紧邻) (2,40)
ID 参数 (1,40)

版权所有:汉斯出版社 (Hans Publishers) Copyright © 2012 Hans Publishers Inc. All rights reserved.