基于经典的HP模型,将不同特征下的H1N1病毒血凝素蛋白质序列转换为数字序列并且用离散傅里叶变换求出相应序列的功率谱。根据这些功率谱建立数学矩函数,并将数字序列转换为多维的矩向量,得到蛋白质序列对应的特征向量。再利用特征向量之间的中间距离对蛋白质序列进行聚类比较分析,得到了较好的结果。这一方法将不同长度的蛋白质序列通过功率谱和力矩将其转化为相同维数的向量,使我们更加容易比较分析生物序列。 Based on the classical HP model, the H1N1 hemagglutinin protein sequence under different characteristics was converted into a digital sequence and the power spectrum of the corresponding sequence was calculated using a discrete Fourier transform. According to these power spectra, a mathematical moment function is established, and the digital sequence is converted into a multi-dimensional moment vector to obtain the corresponding feature vector of the protein sequence. Then using the middle distances between the feature vectors to compare and analyze the protein sequences, a good result was obtained. This method converts protein sequences of different lengths through power spectrum and moments into vectors of the same dimension, which makes it easier for us to compare and analyze biological sequences.
王华*,白凤兰,刘立伟
大连交通大学理学院,辽宁 大连
收稿日期:2018年4月19日;录用日期:2018年5月11日;发布日期:2018年5月18日
摘 要
基于经典的HP模型,将不同特征下的H1N1病毒血凝素蛋白质序列转换为数字序列并且用离散傅里叶变换求出相应序列的功率谱。根据这些功率谱建立数学矩函数,并将数字序列转换为多维的矩向量,得到蛋白质序列对应的特征向量。再利用特征向量之间的中间距离对蛋白质序列进行聚类比较分析,得到了较好的结果。这一方法将不同长度的蛋白质序列通过功率谱和力矩将其转化为相同维数的向量,使我们更加容易比较分析生物序列。
关键词 :蛋白质序列,傅里叶变换,功率谱,聚类
Copyright © 2018 by authors and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
在过去几十年中,研究者已经提出了几种分类生物序列的方法。这些方法中的大多数是基于对齐的,其中通过使用选定的评分系统获得最佳比对。这些方法提供了生物序列的准确分类,并且已经开发并成功应用了几种算法 [
目前,聚类方法在处理大数据的各个方面扮演着越来越重要的角色,如分析蛋白质之间的相似性、提取蛋白质结构信息等 [
自流感病毒H1N1出现以来,世界各地的人们对其进行了研究,通过大量研究表明这种病毒是由禽流感、猪流感和人流感混合而成的。这种病毒的基因由8个长短不一的可编码的10个病毒蛋白的线状负链RNA片段组成。这10个病毒蛋白分别是PB2、PB1、PA、HA、NP、NA、M1、M2、NS1、NS2,其中NS1和NS2为非结构蛋白外,其他均是结构蛋白 [
本文从NCBI网站中Molecular Databases的Protein Sequence下载了在1902~2013年全球22,455条H1N1型流感病毒中,选取了31条含有血凝素蛋白的蛋白质序列进行研究,如表1。
在信号处理中,时域中的序列通常被转换成频域,使一些重要特征直观化。通过这种转换,没有信息丢失,而且一些隐藏的属性可以被揭示。
离散傅里叶变换是较最常见的转换方法之一。对于长度为N的信号 f ( n ) , n = 1 , 2 , ⋯ , N 。在频率k的信号的DFT为 F ( k ) = ∑ n = 1 N f ( n ) e − i ( 2π / N ) k n , k = 1 , 2 , ⋯ , N 。频率k处的信号的功率谱被定义为 P S ( k ) = | F ( k ) | 2 , k = 1 , 2 , ⋯ , N 。
通过DFT功率谱将蛋白质序列转换成相应的数字序列之后,不同长度的数字序列之间进行相似性比较仍然很困难,解决这个问题的一个常用方法是矩向量,将不同长度的数字序列转换为相同维数的距向量,求出向量之间的中间距离矩阵,利用SAS软件建立基于距离矩阵的系统聚类树。我们将PS-M方法建立在蛋白质序列的不同属性上进行了比较。
No. | Virus’s name | No. | Virus’s name |
---|---|---|---|
1 | A/New York/4/1918 | 17 | A/Oslo/868/2001 |
2 | A/London/1/1919 | 18 | A/swine/Iowa/H02NJ56391/2002 |
3 | A/Fort Monmouth/1/1947 | 19 | A/swine/Italy/151672-3/2003 |
4 | A/Netherlands/001G1/1950 | 20 | A/swine/North Carolina/00321/2004 |
5 | A/Yamagishi/50 | 21 | A/Massachusetts/6/2006 |
6 | A/Kw/1/1957 | 22 | A/swine/Kansas/01797/2007 |
7 | A/Denver/1957 | 23 | A/Brisbane/59/2007 |
8 | A/swine/Hong Kong/1/1974 | 24 | A/Kisii/5896/2008 |
9 | A/swine/Hong Kong/59/1977 | 25 | A/Tehran/2a/2008 |
10 | A/USSR/90/1977 | 26 | A/Thailand/CU-H1039/2009 |
11 | A/mallard/Marquenterre/Z237/1983 | 27 | A/Singapore/GP1022/2009 |
12 | A/Memphis/12/1986 | 28 | A/Japan/636/2009 |
13 | A/Goroka/2/1990 | 29 | A/Thailand/CU-H2717/2010 |
14 | A/blue-wingedteal/Alberta/141/1992 | 30 | A/swine/England/453/2006 |
15 | A/Tokushima/20/1996 | 31 | A/Shiraz/11/2013 |
16 | A/swine/Hong Kong/5273/1999 |
表1. 31条流感病毒及其对应的序号
对于一个长度为N的蛋白质序列
u A t ( n ) = { 1 s n = A t 0 其 他 n = 1 , 2 , ⋯ , N (1)
例如,蛋白质序列EVLVLWGVHHPPTGTDQQS,核苷酸V的相应指示剂序列是 u A 15 = 01010001000000000000 。
通过指示函数得到20个长度为N的二进制数列设为 w 1 , w 2 , ⋯ , w 20 ,那么符号序列 s 1 , s 2 , ⋯ , s N 可以表示为 ∑ t = 1 20 u A t ( 1 ) w t , ∑ t = 1 20 u A t ( 2 ) w t , ⋯ , ∑ t = 1 20 u A t ( N ) w t ,记 s ( n ) = ∑ t = 1 20 u A t ( n ) w t , n = 1 , 2 , ⋯ , N 。
因此蛋白质序列对应的离散傅里叶变换为:
S ( k ) = ∑ n = 1 N s ( n ) e − i 2 π N k n = ∑ n = 1 N u A 1 ( n ) w 1 e − i 2 π N k n + ∑ n = 1 N u A 2 ( n ) w 2 e − i 2 π N k n + ⋯ + ∑ n = 1 N u A 20 ( n ) w 20 e − i 2 π N k n = U A 1 ( k ) w 1 + U A 2 ( k ) w 2 + ⋯ + U A 20 ( k ) w 20 (2)
其中 U A t ( n ) 为 u A t ( n ) 的离散傅里叶变换,即
U A t ( k ) = ∑ n = 1 N u A t ( n ) e − i 2 π N k n = ∑ n = 1 N u A t ( n ) ( cos 2 π n k N − i sin 2 π n k N ) , t = 1 , 2 , ⋯ , 20 , k = 1 , 2 , ⋯ , N (3)
因此,得到数列的离散傅里叶变换为
S ( k ) = ∑ t = 1 20 U A t ( k ) w t , k = 1 , 2 , ⋯ , N (4)
定义 u A t 的功率谱为 P A t ( k ) = | U A t ( k ) | 2 , k = 1 , 2 , ⋯ , N ,原蛋白质序列的功率谱函数为
P ( k ) = ∑ t = 1 20 P A t ( k ) , k = 1 , 2 , ⋯ , N (5)
蛋白质序列的经典HP模型是以构成蛋白质序列的氨基酸的结构分类到物化特征间的对应关系为基础,将20种氨基酸分为4大类,分别是极性且亲水性(pq)极性且疏水性(pr)、非极性且亲水性(sq)和非极性且疏水性(sr), p q = { G } , p r = { A , V , L , I , F , P } , s q = { S , C , N , E , T , Q , K , R , H } 和 s r = { W , Y , M } 。这也为蛋白质序列的结构与功能的研究提供了新思路,蛋白质序列的组成相似,进而推测出它们的结构和功能也相似,这就是经典HP模型的意义所在 [
经过分类之后,对任意一个长度为N的蛋白质序列 S = s 1 s 2 ⋯ s N ,其中 s i , i = 1 , 2 , ⋯ , N 为20种氨基酸中的某一种,进行数据化定义,以非极性氨基酸(NP)为例说明:
u N P = { 1 , s i ∈ p q 2 , s i ∈ p r − 1 , s i ∈ s q − 2 , s i ∈ s r (6)
显然, u p q 是一长度为N的二进制的数列,将20个氨基酸一一对应于4个不同的向量 w 1 , w 2 , w 3 , w 4 。利用离散的傅里叶变换,可将指示函数得到的蛋白质序列数据离散化:
U p q ( n ) = ∑ n = 1 N u p q ( n ) e − i 2π N k n , n = 1 , 2 , ⋯ , N , k = 1 , 2 , ⋯ , N (7)
序列的功率谱: P p q ( k ) = | U p q ( k ) | 2 , k = 1 , 2 , ⋯ , N ,同样可以得到 P p r ( k ) , P U P ( k ) 和 P P P ( k ) 。原蛋白质序列的功率谱为
, k = 1 , 2 , ⋯ , N (8)
定义j阶距 [
M j p q = 1 N p q j − 1 ( N − N p q ) j − 1 ∑ k = 1 N / 2 ( P p q ( k ) ) j (9)
同样可以求得 M p r j , M s q j 和 M s r j 。我们的实验结果表明 j = 1 , 2 , 3 , 4 , 5 对于精确聚类来说是足够的。因此,每个蛋白质序列可以在20维欧氏空间中作为几何点来实现,即
( M 1 p q , M 1 p r , M 1 s q , M 1 s r , M 2 p q , M 2 p r , M 2 s q , M 2 s r , M 3 p q , M 3 p r , M 3 s q , M 3 s r , M 4 p q , M 4 p r , M 4 s q , M 4 s r , M 5 p q , M 5 p r , M 5 s q , M 5 s r )
聚类分析在数据分析领域应用甚广,如在数据挖掘、生物信息学和统计学等领域中扮演这非常重要的角色。聚类分析不仅可以达到物以类聚的效果,还可以探索和提取数据中隐含的新规律和新知识。本
文将基于Q型系统聚类法,对所获得的数据进行聚类分析。设n个样本构成的有限集为 X = { x 1 , x 2 , ⋯ , x n } , d = d ( x i , x j ) ( x i , x j ∈ X ) 是任意两个样本之间的中间距离,记 D = { d ( x i , x j ) | x i , x j ∈ X } = { d 0 , d 1 , d 2 , ⋯ , d m } ,其中 d 0 = 0 < d 1 < ⋯ < d m 。
根据公式(1)和公式(6)将31条含有血凝素蛋白的蛋白质序列转换为二进制序列和四元序列,利用离散的傅里叶变换及上述的二进制序列和四元序列,可将蛋白质序列数据离散化。由于不同长度的蛋白质序列通过傅里叶变换转换得到的数字序列的长度依然不同,使得分析蛋白质序列之间的相似性仍然很困难,为了解决这一难题,依据公式(9)将不同维数的特征向量转换维相同维数的特征向量,以此来达到蛋白质序列相似性分析的目的。如基于20种氨基酸的功率谱得到血凝素蛋白质的20维特征向量,表2是6种血凝素蛋白质序列的20种氨基酸的部分氨基酸数据(由于篇幅的问题这里不一一列举)。
应用SAS软件对31条血凝素蛋白质序列进行Q型系统聚类,根据上述的特征向量矩阵,先将各研究样本看成单独的一类,确定样本之间的‘距离’公式,再计算新样本与其他类之间的距离(本文采用中间距离法),重复此过程,直到将所有的变量都找到各自的类别,最后通过SAS软件得到相应的聚类图定义,见图1、图2。
在流感病毒编码的10种病毒蛋白质中,本章选取了有血凝素蛋白质的病毒进行了研究。图1是依据20种氨基酸构造成20维特征向量得到的流感病毒蛋白质序列的聚类图,图2是依据氨基酸的四种理化性质并通过数学力矩函数的思想构造了20维特征向量通过聚类得到流感病毒蛋白质序列的聚类图。例如,两者将31条H1N1病毒血凝素蛋白质序列分为不同类,图1是基于20种氨基酸对血凝素蛋白质序列进行聚类,分类结果为(1),(2),(3),(5),(13),(15),(25),(26),(28),(29),(8,16、20、22、30),(4、6、7、10、12),(17、21、23、24),(11、14、19),(9、18、27、31);图2是基于氨基酸的四类理化性质对血凝素蛋白质序列进行聚类,分类结果为(1),(2),(3),(5),(13),(15),(25),(26),(29),(8、17、21、23、30),(16、20、22、24、28),(4、6、10、11、9、12、14、19),(7、18、27、31)。由图1和图2可知,基于蛋白质序列的不同特征属性,应用本文的方法对血凝素蛋白质序列进行分类的差异较小。将这两种分类结果与文献 [
A | W | C | D | E | F | G | H | I | Y | K | L | |
---|---|---|---|---|---|---|---|---|---|---|---|---|
1 | 0.0602 | 0.1431 | 0.0000 | 0.0970 | 0.1431 | 0.2817 | 0.0740 | 0.1431 | 0.2817 | 0.0602 | 0.0970 | 0.0602 |
2 | 0.4183 | 0.7457 | 1.1064 | 0.8900 | 0.3857 | 0.7457 | 0.3139 | 1.4672 | 0.7457 | 0.3857 | 0.3857 | 0.2802 |
3 | 4.4910 | 22.004 | 17.650 | 5.5180 | 3.8000 | 5.5180 | 4.0310 | 17.650 | 3.9510 | 7.2050 | 3.8740 | 3.3590 |
4 | 2.6988 | 7.5539 | 5.2405 | 4.2231 | 2.1425 | 4.6752 | 2.0954 | 6.9369 | 2.4814 | 3.4097 | 2.1919 | 1.7558 |
5 | 2.7949 | 4.6770 | 6.6369 | 2.0944 | 1.8656 | 2.0944 | 2.1845 | 3.6220 | 1.1994 | 3.1533 | 1.9357 | 1.1276 |
6 | 2.6121 | 7.3109 | 5.0720 | 3.7295 | 2.1718 | 4.2946 | 2.0738 | 6.7138 | 2.7759 | 3.3002 | 2.4677 | 1.6996 |
表2. 基于20种氨基酸的特征向量数据
图1. 基于20种氨基酸的功率谱的聚类图
图2. 基于电荷和极性性质的功率谱的聚类图
第11条病毒蛋白质、第12条病毒蛋白质、第14条病毒蛋白质和第19条病毒蛋白质属于同一类,第28条病毒蛋白质与第24条病毒蛋白质属于同一类,以氨基酸的四种理化性质所进行的分类结果与文献 [
本章基于蛋白质二维数字表达结合高维共鸣识别法判别双序列蛋白质的相似性和在频率域上表示DNA序列的基础上,提出了应用傅里叶功率谱分析多个蛋白质序列的相似性。将DNA序列上传统的研究方法转换到研究蛋白质序列上,主要包括:在经典的HP模型之上,以20种氨基酸和氨基酸的四种理化性质为基础上将蛋白质序列数值化。在此基础上,通过离散的傅里叶变换将数字序列离散化,为了统一离散化序列的维数,再根据定义计算序列的功率谱,并构造向量矩阵,计算中间距离。在上述的基础上,采用系统聚类算法获取分层结构,构造聚类树讨论蛋白质序列的相似性。
本章选取了31条H1N1病毒血凝素蛋白质序列对提出的方法进行验证,在不同属性的基础上,经过反复的验证,将多维的数字序列进行降维,最终我们采用20维的特征向量表征整条蛋白质序列,利用系统聚类算法,对31条蛋白质序列进行分类,实验结果与文献 [
感谢基金项目:辽宁省教育厅科学研究一般项目(No. L2015093)对本论文的支持。同时,也要衷心的感谢本文中引用文章的作者。
王华,白凤兰,刘立伟. 基于傅里叶功率谱的H1N1病毒血凝素蛋白质序列的比较分析 Comparison and Analysis of H1N1 Hemagglutinin Protein Sequences Based on Fourier Power Spectrum[J]. 计算生物学, 2018, 08(01): 15-23. https://doi.org/10.12677/HJCB.2018.81003