G蛋白偶联受体(G Protein-Coupled Receptors, GPCRs)是一肽类膜蛋白家族,对GPCRs序列进行聚类分析有着重要的理论意义和应用价值。本文根据氨基酸的分类及其物化性质给出了蛋白质序列的特征向量表示,在此基础上用因子分析法对蛋白质序列的特征向量进行降维得到了因子模型,进而利用因子模型分析了40个GPCRs序列的相似性,并进行聚类分析,得到了较好的结果,为分析比较GPCRs序列提供新的手段。 G protein-coupled receptors (GPCRs) is a family of peptide proteins, and it is of great theoretical and practical value to clustering analysis of GPCRs. In this paper, the eigenvector representations of protein sequences are given by the classification and physicochemical properties of amino acids. On the basis of this, dimensions of characteristic vectors of the protein sequences are reduced by factor analysis and obtain factor model. The factor model is used to analyze the similarity of 40 G protein-coupled receptor sequences, simultaneously carrying out the clustering analysis. Better results provide a new approach for analyzing and comparing GPCRs.
王华*,白凤兰,刘立伟
大连交通大学理学院,辽宁 大连
Email: *1123943421@qq.com
收稿日期:2017年10月9日;录用日期:2017年10月20日;发布日期:2017年10月24日
G蛋白偶联受体(G Protein-Coupled Receptors, GPCRs)是一肽类膜蛋白家族,对GPCRs序列进行聚类分析有着重要的理论意义和应用价值。本文根据氨基酸的分类及其物化性质给出了蛋白质序列的特征向量表示,在此基础上用因子分析法对蛋白质序列的特征向量进行降维得到了因子模型,进而利用因子模型分析了40个GPCRs序列的相似性,并进行聚类分析,得到了较好的结果,为分析比较GPCRs序列提供新的手段。
关键词 :蛋白质序列,特征向量,因子模型,聚类分析
Copyright © 2017 by authors and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
每个细胞信号的传递都是借助细胞膜的不同种类的受体,将细胞外的信号传递到细胞内。G蛋白偶联受体(G Protein-Coupled Receptors, GPCRs)就是一个因能结合和调节G蛋白活性而得名的超级膜蛋白家族。作用于GPCRs的信号物质,通过影响细胞的GPCRs而对G蛋白质起作用。因此GPCRs被认为是相似的分子机制而起作用。GPCRs在信号传导中的重要作用,不仅有助于了解细胞信号的传导机制、阐明疾病的致病机理,而且对药物的研究提供新的思路,GPCRs的功能失调会引发许多疾病,如疼痛、色盲症、哮喘等。通过调节有关GPCRs介导的信号传导,可以治疗高血压、紧张和消化道溃疡等病症。大部分药物可通过靶向作用于GPCRs而达到治疗的效果,所以GPCRs在制药领域成为重要的药物作用靶标。根据GPCRs的序列差异,准确地聚类GPCRs序列有着很重要的理论意义和应用价值 [
蛋白质序列相似性分析是蛋白质序列聚类的关键所在。经典的相似性算法有Needleman-Wunsch算法、Smith-Waterman算法、接触度量矩阵法、矩阵法、T-coffee算法、SIM算法、基于氨基酸物化性的拓扑指数方法和基于LZ复杂度等方法 [
本文中,首先在氨基酸的物化性质表征蛋白质序列的基础上,把蛋白质序列转化成11维的特征向量;其次,根据20种氨基酸的极性、非极性、疏水性、亲水性将其分为四类:极性且亲水性 ( p q ) 、极性且疏水性 ( p r ) 、非极性且亲水性 ( s q ) 和非极性且疏水性 ( s r ) ,将这四类氨基酸两两连接得到16个特征子列,并计算了16个特征子列在蛋白质序列中出现的频率,利用此频率将蛋白质序列转化成16维特征向量;最后,用因子分析法把蛋白质序列的特征向量进行降维得到因子模型,进而利用因子模型分析40个G蛋白偶联受体序列的相似性,并对其进行聚类分析。
X = ( X 1 , X 2 , ⋅ ⋅ ⋅ , X p ) T 是可观测的随机向量, E ( X ) = μ , V a r ( X ) = ∑ , F = ( F 1 , F 2 , ⋅ ⋅ ⋅ , F m ) T ( m < p ) 是不可观测的随机向量, E ( F ) = 0 , V a r ( F ) = I m ,又设 ε = ( ε 1 , ε 2 , ⋅ ⋅ ⋅ , ε p ) T 与 F 不相关,且 E ( ε ) = 0 , D ( ε ) = diag ( d 1 2 , d 2 2 , ⋅ ⋅ ⋅ , d p 2 ) = D 。设 X 满足:
{ X 1 = a 11 F 1 + a 12 F 2 + ⋅ ⋅ ⋅ + a 1 m F m + ε 1 X 2 = a 21 F 1 + a 22 F 2 + ⋅ ⋅ ⋅ + a 2 m F m + ε 2 ⋮ X p = a p 1 F 1 + a p 2 F 2 + ⋅ ⋅ ⋅ + a p m F m + ε p (2.1)
矩阵方程 X p × 1 = A p × m F m × 1 + ε p × 1 称正交因子模型,其中 F 1 , F 2 , ⋯ , F m 称 X 的公共因子, ε 1 , ε 2 , ⋯ , ε p 称 X 的特殊因子。设 F 1 , F 2 , ⋯ , F m 分别是均值为0,方差为1的随机变量,即 D ( F ) = I m ;特殊因子 ε 1 , ε 2 , ⋯ , ε p 分别是均值为0,方差为 d 1 2 , d 2 2 , ⋯ , d p 2 的随机变量,即 D ( ε ) = d i a g ( d 1 2 , d 2 2 , ⋯ , d p 2 ) = D ;各特殊因子之间及特殊因子与公共因子之间都是相互独立的,即 C o v ( ε i , ε j ) = 0 , i ≠ j 及 C o v ( ε , F ) = 0 。 a i j 是第 j 个变量在第 i 个公共因子上的负荷, A = ( a i j ) p × m 是待估系数矩阵(因子载荷矩阵) [
因子分析的目标是找出公共因素及特有的因素,即公共因子与特殊因子。在公因子分析中,特殊因子起到残差的作用,但被定义为彼此不相关且和公因子也不相关。而且每个公因子假定至少对两个变量有贡献,否则它将是一个特殊因子。在开始提取公因子时,为了简便,还假定公因子彼此不相关且具有单位方差。在这种情况下,向量 X 的协方差矩阵 ∑ 可以表示为:
∑ = D ( X ) = D ( A F + ε ) = A A ′ + D (2.2)
这里 D = diag ( d 1 2 , d 2 2 , ⋅ ⋅ ⋅ , d p 2 ) , diag 表示对角矩阵。
如果已知 X 协方差矩阵 ∑ 和 D ,可以很容易地求出 A 。根据式(2.2)有:
记 Σ * = Σ − D ,则 Σ * 是非负定矩阵。若记矩阵 Σ * 的 p 个特征值 λ 1 , λ 2 , ⋯ , λ m , ⋯ , λ p 且 λ 1 ≥ λ 2 ≥ ⋯ ≥ λ m > λ m + 1 = ⋯ = λ p = 0 ,及 e 1 , e 2 , ⋯ , e m 分别表示m个非零特征值所对应的标准化的特征向量,则 Σ * 的谱分解式为:
Σ * = λ 1 e 1 e ′ 1 + λ 2 e 2 e ′ 2 + ⋅ ⋅ ⋅ + λ m e m e ′ m = ( λ 1 e 1 , λ 2 e 2 , ⋅ ⋅ ⋅ , λ m e m ) ( λ 1 e 1 , λ 2 e 2 , ⋅ ⋅ ⋅ , λ m e m ) ′ (2.3)
只要:
A = ( λ 1 e 1 , λ 2 e 2 , ⋅ ⋅ ⋅ , λ m e m ) (2.4)
就可以求出因子载荷矩阵 A 。从而求得 d i 2 = 1 − ∑ t = 1 m a t i 2 , i = 1 , 2 , ⋯ , p ,这时 A 和 D = d i a g ( d 1 2 , d 2 2 , ⋅ ⋅ ⋅ , d p 2 ) 为因子模型的一个解,这个解就称为主因子解。
因子模型被估计后,还必须对得到的公因子 F 给出一种明确的解释,它用来反映在预测每个可观察变量中这个公因子的重要性,这个公因子的重要程度就是在因子模型矩阵中相应于这个因子的系数,显然这个因子的系数绝对值越大越重要,而接近0则表示对可观察变量没有什么影响。因子解释是一种主观的方法,有时侯,通过旋转公因子可以减少这种主观性,也就是要使用非奇异的线性变换。
设 p 维可观察变量 X 满足因子模型 X = A F + ε ,设 Γ 是任一正交阵,则因子模型可改写为:
X = A Γ Γ ′ F + ε = A * F * + ε (2.5)
其中, A * = A Γ , F * = Γ ′ F 。
根据大量的实验结果,我们提取了对G偶联受体序列相似性分析有影响的氨基酸的11种物化属性 [
根据20种氨基酸的标准化和平均化后的物化属性,对40个G蛋白受体序(https://www.ncbi.nlm.nih. gov/protein/1LMB_4上下载)中所含的20个氨基酸进行统计并计算它们的算数平均数,由于数据篇幅比较大,表2只给出了部分G蛋白受体序列的算术平均数。
Residue | Property | ||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|
α c | C α | K 0 | P β | R a | Δ A S A | P I | Δ G h D | N m | M u | E l | |
Ala | 0.58 | 0.15 | 0.83 | 0.35 | 0.32 | 0.22 | 0.404 | −0.58 | 0.83 | 0.34 | 0.36 |
Asp | 0.97 | 0.27 | 0.24 | 0.13 | 0.14 | 0.21 | 0 | −6.1 | 0.51 | 0.28 | 0.09 |
Cys | 0.21 | 0.25 | 0.26 | 0.62 | 0.21 | 0.57 | 0.288 | −1.91 | 0.59 | 0.84 | 0.7 |
Glu | 0.9 | 0.42 | 0 | 0 | 0.26 | 0.29 | 0.36 | −7.37 | 0.81 | 0.41 | 0.13 |
Phe | 0.34 | 0.69 | 0.13 | 0.76 | 0.82 | 0.84 | 0.339 | −1.35 | 0.69 | 0.69 | 0.79 |
Gly | 0.13 | 0 | 0.71 | 0.29 | 0.23 | 0 | 0.401 | −0.82 | 0.22 | 0 | 0.43 |
His | 0.09 | 0.5 | 0.34 | 0.38 | 0.3 | 0.52 | 0.603 | −5.57 | 0.69 | 0.51 | 0.45 |
Ile | 0.16 | 0.54 | 0.34 | 0.92 | 1 | 0.8 | 0.407 | 0.4 | 0.47 | 0.45 | 0.87 |
Lys | 0.11 | 0.69 | 0.29 | 0.28 | 0 | 0.35 | 0.872 | −5.97 | 0.67 | 0.5 | 0 |
Leu | 0.11 | 0.46 | 0.34 | 0.7 | 0.69 | 0.69 | 0.402 | 0.35 | 0.92 | 0.44 | 0.66 |
Met | 0.19 | 0.62 | 0.39 | 0.51 | 0.58 | 0.84 | 0.372 | −0.71 | 1 | 0.51 | 0.66 |
Asn | 0.3 | 0.31 | 0.41 | 0.39 | 0.06 | 0.24 | 0.33 | −6.63 | 0.55 | 0.31 | 0.15 |
Pro | 1 | 0.19 | 1 | 0.14 | 0.06 | 0.24 | 0.442 | 0.56 | 0 | 0.26 | 0.3 |
Gln | 0.45 | 0.48 | 0.28 | 0.55 | 0.15 | 0.4 | 0.056 | −7.12 | 0.75 | 0.41 | 0.19 |
Arg | 0 | 0.88 | 0.74 | 0.42 | 0.13 | 0.58 | 1 | −12.78 | 0.65 | 0.63 | 0.47 |
Ser | 0.23 | 0.15 | 0.49 | 0.29 | 0.11 | 0.15 | 0.364 | −6.18 | 0.26 | 0.15 | 0.28 |
Thr | 0.48 | 0.31 | 0.38 | 0.62 | 0.14 | 0.27 | 0.354 | −3.66 | 0.26 | 0.26 | 0.42 |
Val | 0.13 | 0.42 | 0.43 | 1 | 0.91 | 0.58 | 0.399 | 0.18 | 0.33 | 0.33 | 0.81 |
Trp | 0.56 | 1 | 0.46 | 0.75 | 0.76 | 1 | 0.39 | −4.71 | 0.61 | 1 | 1 |
Tyr | 0.18 | 0.69 | 0.09 | 0.83 | 0.21 | 0.82 | 0.362 | −8.45 | 0.37 | 0.74 | 0.66 |
表1. 20种氨基酸的属性取值表
α c | C α | K 0 | P β | R a | Δ A S A | P I | Δ G h D | N m | M u | E l | |
---|---|---|---|---|---|---|---|---|---|---|---|
Q8MXU2 | 0.3368 | 0.4119 | 0.4275 | 0.5117 | 0.3785 | 0.4486 | 0.4089 | −3.51 | 0.537 | 0.3996 | 0.4723 |
Q9V4U4 | 0.3639 | 0.3814 | 0.4581 | 0.4911 | 0.3447 | 0.4094 | 0.4093 | −3.3994 | 0.5257 | 0.377 | 0.4443 |
Q09630 | 0.3394 | 0.4199 | 0.4177 | 0.5024 | 0.3656 | 0.4487 | 0.4117 | −3.6989 | 0.5459 | 0.4085 | 0.4571 |
P91685 | 0.3446 | 0.4199 | 0.4177 | 0.5024 | 0.3579 | 0.4302 | 0.4018 | −3.6051 | 0.5295 | 0.3915 | 0.4517 |
P31421 | 0.3499 | 0.3943 | 0.4603 | 0.5059 | 0.3704 | 0.4319 | 0.4174 | −3.3861 | 0.5494 | 0.4002 | 0.4744 |
表2. 40种蛋白质的算数平均值
根据得到蛋白质序列对应的11维特征向量,并计算11维特征向量的相关矩阵及其特征值,根据特征值累计贡献率提取相应的主因子,以主因子的方差贡献率作为权重得到因子模型如下:
x 1 = − 0 .7378 f 1 + 0.2902 f 2 , x 2 = 0 .6938 f 1 − 0 .5964 f 2 , x 3 = − 0 .4949 f 1 + 0 .8335 f 2 , x 4 = 0 .8966 f 1 − 0.2191 f 2 , x 5 = 0 .9301 f 1 + 0 .0991 f 2 , x 6 = 0 .8680 f 1 − 0 .3875 f 2 , x 7 = 0 .0469 f 1 + 0 .0173 f 2 , x 8 = − 0.0463 f 1 + 0 .1128 f 2 , x 9 = 0 .0220 f 1 − 0 .0383 f 2 , x 10 = 0 .2801 f 1 + 0 .3878 f 2 , x 11 = 0 .2922 f 1 + 0 .3878 f 2
其中 x 1 表示 α c , x 2 表示 C α , x 3 表示 K 0 , x 4 表示 P β , x 5 表示 R a , x 6 表示 Δ A S A , x 7 表示 P I , x 8 表示 Δ G h D , x 9 表示 N m , x 10 表示 M u , x 11 表示 E L ,
f 1 = − 0 .10958 x 1 * − 0 .01489 x 2 * -0 .0463 x 3 * + 0 .15327 x 4 * + 0 .31804 x 5 * − 0 .04243 x 6 * + 0 .04687 x 7 * − 0 .04615 x 8 * + 0 .02197 x 9 * + 0 .28006 x 10 * + 0 .29216 x 11 * f 2 = − 0 .04775 x 1 * − 0 .15665 x 2 * + 0 .57288 x 3 * + 0 .03451 x 4 * + 0 .25414 x 5 * − 0 .23404 x 6 * + 0 .01727 x 7 * + 0 .11279 x 8 * − 0 .03826 x 9 * − 0 .00144 x 10 * + 0 .3878 x 11 *
x i * ( i = 1 , 2 , ⋯ , 11 ) 是 x i ( i = 1 , 2 , ⋯ , 11 ) 的标准化,利用因子模型可得蛋白质序列对应的2维特征向量 ( f 1 , f 2 ) 。例如,蛋白质序列Q8MXU2对应的二维特征向量 ( f 1 , f 2 ) = ( 0 .5598 , − 0 .0536 ) 。
根据20种氨基酸的极性、非极性、疏水性、亲水性将其分为四类 [
从https://www.ncbi.nlm.nih.gov/protein/1LMB_4上下载了40个G蛋白受体序列 [
观察聚类图1~图4易看出,40个G蛋白偶联受体序列中:P97772和Q9UGT0,O00222和Q3MIV9,Q93564和Q622H2,Q6ZMQ2和Q14833,P31421和Q14416,Q5RAL3、Q9QYS2和P31422,Q863I4、O15303和P35349,Q93564和Q622H2最相似。根据文献 [
和Q62916、Q14833和Q68EF4相近。由此可见,基于2维和6维特征向量聚类比11维和16维特征向量聚类效果较好。再把图2与图4与文献 [
图1. 基于11维特征向量的40个G蛋白偶联受体序列聚类图
图2. 基于2维特征向量的40个G蛋白偶联受体序列聚类图
图3. 基于16维特征向量的40个G蛋白偶联受体序列聚类图
图4. 基于6维特征向量的40个G蛋白偶联受体序列聚类图
因子分析是主成分分析的推广,它是一种降维方法,其目的是用有限个不可观测的隐变量来解释原始变量之间的相关性。在因子模型中,由于因子载荷矩阵不是唯一的,我们利用这一特点可以通过因子的旋转,使得旋转后的因子有更鲜明的实际意义。本文利用因子分析法,对40个G蛋白偶联受体序列进行相似性分析,并将其聚类,得到的结果验证了本方法的可行性。而且,此方法对生物序列进化的研究具有操作简单、时间复杂度低、对序列的长度没有限制等优点。对于本文中我们选取的氨基酸的11种物化性质在不同功能的蛋白质中有没有规律以及分析这些物化性质与蛋白质功能和结构之间的影响都是有待于进一步研究的课题。
感谢基金项目:辽宁省教育厅科学研究一般项目(No.L 2015093)对本论文的支持。同时,也要衷心地感谢本文中引用文章的作者。
王华,白凤兰,刘立伟. 基于因子模型对G蛋白偶联受体序列进行聚类Clustering of G Protein-Coupled Receptor Sequences Based on Factor Model[J]. 计算生物学, 2017, 07(03): 31-38. http://dx.doi.org/10.12677/HJCB.2017.73004