本文选取了47种鸟类的基因组作为研究对象,根据靶定下一代DNA测序技术(targeted next-generation DNA sequencing)得到的394个保守片段的DNA序列数据,统计了从9联体到14联体的频数及其频率,基于k联体(k-mer)非联配算法得到了任意两种鸟类之间k联体的距离矩阵,并运用邻接(Neighbor-Joining)法构建了47种鸟类的进化树,发现当k = 12时达到稳定。最后,通过将该树与Prum和Jarvis构建的进化树进行了比较,分析了鸟类的进化和分类. 结果发现三个进化树基本一致, 只有部分姐妹分支有差别, 说明12联体的相对频数是能够较好描述基因组进化的动力学变量。 Based on nucleotide sequences in 394 conserved regions of 47 avian DNA sequences obtained using targeted-next generation DNA sequencing, the k-mer frequency (from 9-mer to 14-mer) was counted. We calculated the distance matrix among 47 avians by k-mer Non-aligned Algorithm (KNA) and constructed the phylogenetic tree by the Neighbor-Joining method. The results showed that the phylogenetic tree is changed with increasing k and stabilized when k equals 12. Then, we compared 12-mer phylogenetic tree with two other trees constructed by Prum and Jarvis respectively and an-alyzed the evolution and classification of these birds. We found that the three phylogenetic trees are basically same apart from a small part of sister branches on the trees. The consistency revealed that the frequency of 12-mer is a better dynamic variable for measuring evolution of species.
张永芬,周 勋,罗辽复*,张利绒*
内蒙古大学物理科学与技术学院,内蒙古 呼和浩特
收稿日期:2017年5月15日;录用日期:2017年5月25日;发布日期:2017年5月31日
摘 要
本文选取了47种鸟类的基因组作为研究对象,根据靶定下一代DNA测序技术(targeted next-generation DNA sequencing)得到的394个保守片段的DNA序列数据,统计了从9联体到14联体的频数及其频率,基于k联体(k-mer)非联配算法得到了任意两种鸟类之间k联体的距离矩阵,并运用邻接(Neighbor-Joining)法构建了47种鸟类的进化树,发现当k = 12时达到稳定。最后,通过将该树与Prum和Jarvis构建的进化树进行了比较,分析了鸟类的进化和分类. 结果发现三个进化树基本一致, 只有部分姐妹分支有差别, 说明12联体的相对频数是能够较好描述基因组进化的动力学变量。
关键词 :鸟类,DNA序列,k联体,进化树
Copyright © 2017 by authors and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY).
http://creativecommons.org/licenses/by/4.0/
鸟类起源于侏罗纪时代的兽脚亚目,是恐龙的唯一现存后裔。同时鸟类也是四足类脊椎动物中物种最丰富的一个纲,目前大约有10,000多个鸟类物种存在于地球的不同环境中。在过去数十年中,人们对鸟类之间物种进化关系的研究有了巨大的进展和重大的突破 [
近年来,随着测序技术水平的快速提高,人类获得了更加丰富的鸟类基因组数据,鸟类分子系统发生学的研究也因此进入了快车道。2014年,Jarvis等人 [
尽管鸟类的基因组信息越来越全面,但在构建鸟类进化树中也遇到了诸多困难。其中一个主要原因是鸟类物种大爆发的时间很短,导致鸟类基因组之间存在大量的基因不完全谱系分选(Incomplete Lineage Sorting of Genes) [
本文选取两侧为可变区域的保守序列数据,基于k联体的非联配方法,构建了一个由47个鸟类物种组成的鸟类基因组进化树。所谓k联体的非联配方法就是生物序列数据频次统计算法,也称为k-mer频次统计算法。遗传语言-DNA序列的信息很大程度上反映在其k-mer频数中,k-mer频次统计信息可以用来揭示生物序列中各种子序列的分布规律,它是一种衡量序列相似性的重要工具,这为研究鸟类物种亲缘关系提供了新的角度 [
本文的数据来源于Zenodo(https://zenodo.org/record/28343#.VzCY5PmEBFn),由Prum等 [
在建树过程中,时间参数依据Prum等得到的地质化石较准时间,即文献 [
为方便与Prum和Jarvis构建的进化树进行比较,本文对47种鸟类的英文常用名、记号、对应于英文常用名的中文常用名 [
因此,198种鸟类的字母记号具体如下:P01-P09表示Palaeognathae, G01-G16表示Galloanserae,
序号 | 英文常用名 | 中文常用名 | 记号 | Prum对鸟类的命名 |
---|---|---|---|---|
1 | Common ostrich | 非洲鸵鸟 | P01 | I0453_90121_Struthionidae_Struthio_camelus |
2 | White-throated tinamou | 白喉䳍 | P06t | I0432_5886_Tinamidae_Eudromia_elegans |
3 | Turkey | 火鸡 | G04g | I0448_52755_Numididae_Numida_malagris |
4 | Chicken | 鸡 | G09g | I0374_2419_Phasianidae_Gallus_gallus |
5 | Peking duck | 北京鸭 | G12a | I0283_6026_Anatidae_Dendrocygna_viduata |
6 | Downy woodpecker | 绒啄木鸟 | NIC22 | I0259_3344_Picidae_Picus_canus |
7 | Carmine bee-eater | 红蜂虎 | NIC10 | I0199_955_Meropidae_Merops_muelleri |
8 | Zebra finch | 斑马雀 | NIA49p | I0456_3321_Paridae_Poecile_lugubris |
9 | Medium-ground finch | 中地雀 | NIA50p | I0455_1245_Alaudidae_Calandrella_brachydactyla |
10 | American crow | 短嘴鸦 | NIA48p | I0197_832_Corvidae_Corvus_albus |
11 | Golden-collared manakin | 金领娇鹟 | NIA41p | I0246_2823_Tyrannidae_Tyrannus_albogularis |
12 | Rifleman | 刺鹩 | NIA13p | I2829_RIFL_Acanthisittidae_Acanthisitta_chloris |
13 | Speckled mousebird | 斑胸鼠鸟 | NIC01 | I0410_52764_Coliidae_Colius_colius |
14 | Bar-tailed trogon | 斑尾非洲咬鹃 | NIC05 | I0190_295_Trogonidae_Apaloderma_aequatoriale |
15 | Chimney swift | 烟囱褐雨燕 | NS10a | I0247_2886_Apodidae_Chaetura_brachyura |
16 | Anna’s hummingbird | 安氏蜂鸟 | NS11a | I0219_1489_Trochilidae_Topaza_pella |
17 | Common cuckoo | 大杜鹃 | NC06o | I0423_2497_Cuculidae_Cuculus_optatus |
18 | Kea | 啄羊鹦鹉 | NIA07 | I0389_14873_Psittacidae_Nestor_meridionalis |
19 | Budgerigar | 虎皮鹦鹉 | NIA12 | I0240_2217_Psittacidae_Deroptyus_accipitrinus |
20 | Chuck-will’s-widow | 卡氏夜鹰 | NS02 | I0258_3336_Caprimulgidae_Caprimulgus_europaeus |
21 | Yellow-throated sandgrouse | 黄喉沙鸡 | NC11c | I0411_53231_Pteroclididae_Pterocles_bicinctus |
22 | Brown mesite | 褐拟鹑 | NC09c | I0363_345610_Mesitornithidae_Mesitornis_unicolor |
23 | Sunbittern | 日鳽 | NA19 | I0396_16818_Eurypygidae_Eurypyga_helias |
24 | Hoatzin | 麝雉 | NIM01 | I0369_848_Opisthocomidae_Opisthocomus_hoazin |
25 | Red-crested turaco | 红冠蕉鹃 | NC01o | I0192_375_Musophagidae_Tauraco_macrorhynchus |
26 | Mac Queen’s bustard | 亚洲波斑鸨 | NC03o | I0281_5967_Otididae_Ardeotis_kori |
27 | Pigeon | 鸽子 | NC16c | I0211_1232_Columbidae_Columba_livia |
28 | Turkey vulture | 红头美洲鹫 | NIM02a | I0202_1066_Cathartidae_Cathartes_burrovianus |
29 | Cuckoo-roller | 鹃三宝鸟 | NIC03 | I0367_449184_Leptosomidae_Leptosomus_discolor |
30 | Rhinoceros hornbill | 马来犀鸟 | NIC08 | I2828_3250_Bucerotidae_Bucorvus_leadbeateri |
31 | Peregrine falcon | 游隼 | NIA04 | I0236_2079_Falconidae_Falco_sparverius |
32 | Bald eagle | 白头海雕 | NIM07a | I0185_86_Accipitridae_Buteo_jamaicensis |
33 | White-tailed eagle | 白尾海雕 | NIM08a | I0268_3790_Accipitridae_Accipiter_superciliosus |
34 | Red-legged seriema | 红腿叫鹤 | NIA01 | I0421_1173_Cariamidae_Cariama_cristata |
表1. 47种鸟类的名称和记号
Continued
NS01-NS13表示Neoaves-Strisores,NC01-NC16表示Neoaves-Columbaves,NG01-NG09表示Neoaves-Gruiforms,NA01-NA43表示Neoaves-Aequorlitornithes,NIM01-NIM10表示与Neoaves- In-opinaves-Accipitriformes相关的混合鸟类, NIC01-NIC26表示Neoaves-Inopinaves-Coraciimorphae, NIA01-NIA56表示Neoaves-Inopinaves-Ausralaves, NIA13p-NIA56p中的字母p表示subclass passeriformes。通过分析新命名的字母记号可以直接了解物种分类的从属问题,方便快速判断所构进化树的准确性。
k联体是指在核苷酸序列中连续排列的k个碱基。由于下载得到的测序数据中含有碱基不确定的位点(占序列总长的0.56%~5.76%),如强配对碱基(S),次黄嘌呤碱基(I),含氨基碱基(M)等,为了保证序列长度不变,同时避免引入虚假的k联体,将这些位点用“−”表示。这样,经过预处理后的序列数据则是由腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)、鸟嘌呤(G)四种碱基及“−”组成。
本文不考虑含有“−”的k联体,故仅包含字母的k联体最多只有4k种。我们从经预处理后的47种鸟类的基因组序列资料出发,统计k联体(k = 9 − 14)的频数及其相应频率。据此构建进化树。
我们采用k联体的非联配算法 [
根据(1)式,利用k联体频率可计算出47种鸟类两两之间的进化距离值,从而得到一个47 × 47维的距离矩阵。
邻接法(Neighbor-Joining,简称为NJ)是由Saitou和Nei [
特别是,在NJ算法的递推过程中要对一对物种(如物种1和物种2)的分支长度求和,记为S12:
其中,N表示物种总数,d1k和d2k分别表示物种1和2与其它物种之间的距离值,d12表示物种1和2之间的距离值,dij表示除了物种1和2之外的其他物种两两之间的距离值。当S12为求得的所有Sij中最小值时,表示1和2即为邻近物种。很显然,式(2)中物种1和物种2是对称的,即两物种替换后S12值不变。由此说明一个姐妹支上的两个邻近物种是可以上下互换的。
对47种鸟类基因组中的靶定测序数据,我们计算了从9-mer到14-mer的k-mer的频数分布,如表2所示。结果表明,对于多联体而言,频数为2 − 4和频数大于4的k-mer占k-mer总体的比例随着k的增大而降低,而频次为1的k-mer随着k的增大而增大。
例如,对于12联体,我们计算了暴风鹱(Northern fulmar)、企鹅(penguin)、红头美洲鹫(Turkey vulture)、鸽子(Pigeon)、麝雉(Hoatzin)和非洲鸵鸟(Common ostrich)共6种鸟类频数大于4的12-mer的分布,如图1所示。其中,横坐标表示12-mer的频数,范围从5到20,纵坐标表示给定频数下12-mer的种类数。分析发现,基本满足随着频数的增加对应种类数减小的趋势。通过统计较高频次12-mer的分布可深入探究IMU树中各姐妹支形成的原因。
本文基于KNA算法,我们构建了47种鸟类的进化树,称为IMU(Inner Mongolia University的简称)树.对所得的6个k-mer (k = 9 − 14)进化树进行比较,可得出较合理的IMU树。经分析发现从9-mer进化树开始,5种古鸟就位于树的根部,与已知的进化关系相符; 紧邻其上有一支NI,树的最上面有一支NA,这些分枝已经达到稳定。当k增加到12时,得到12联体时的NJ进化树,就和Jarvis和Prum等构建的进化树基本一致。当k的值由12增加到13、14时,发现进化树已不再随k的增加而发生任何变化。由此说明,12联体对于鸟类基因组具有物种特征性。我们得到的IMU进化树如图2所示,以“P/G”和“N”
k联体总数范围 | 频数为1的比例(%) | 频数为2-4的比例(%) | 频数大于4的比例(%) | |
---|---|---|---|---|
9联体 | 339,155~388,500 | 17.59~20.75 | 53.18~55.92 | 23.48~29.21 |
10联体 | 334,966~387,994 | 53.98~58.62 | 39.75~43.64 | 1.64~2.42 |
11联体 | 330,896~387,507 | 82.61~85.04 | 14.86~17.20 | 0.077~0.14 |
12联体 | 326,894~387,039 | 94.57~95.46 | 4.73~5.42 | 0.015~0.041 |
13联体 | 323,140~386,587 | 98.88~98.56 | 1.31~1.65 | 0.0037~0.03 |
14联体 | 319,475~386,113 | 99.46~99.59 | 0.40~0.52 | 0.0013~0.025 |
表2. 不同频数k-mer的占比
图1. 6种鸟类DNA序列的12联体频数分布
开头分别代表了古鸟和新鸟,可分为五部分,分别为古老鸟,新鸟小纲的1、2、3、4共五支,各自代表了古老鸟、陆鸟、水陆混合鸟类、陆鸟和水鸟,图中分别以紫、黑、蓝、红、绿色的线表示。其中,古老鸟类(Palae/Gallo)、猛禽(Neoaves3中的NIM02a、NIA04、NIM07a、NIM08a、NIA01、NIM09)、水鸟(Neoaves4)的分类非常明确。此外,物种形成时间取自文献 [
由Prum等人构建的进化树 [
两树一致把鸟类分为古颚总目和今颚总目,且鸡雁小纲和新鸟小纲共同组成今颚总目。两树也同样认为蜂鸟科,雨燕科和夜鹰科形成姐妹分支,其拓扑结构为(蜂鸟科 + 雨燕科) + 夜鹰科) (三者都属于夜鹰目)。沙鸡目,拟鹑目和鸽形目形成姐妹分支,其拓扑结构为(沙鸡目 + 拟鹑目) + 鸽形目)。美洲火烈鸟(火烈鸟科)和凤头鷉(鸊鷉科)形成姐妹分支。日鳽目,鹲蒙目和潜鸟目形成姐妹分支,其拓扑结构为(日鳽目 + 鹲蒙目) + 潜鸟目)。对于鹃形目,蕉鹃目和鸨形目,两树都认为它们是近亲,然而物种的拓扑结构有些差异,Jarvis等人认为(鹃形目 + (蕉鹃目 + 鸨形目),Prum等人认为(蕉鹃目 + (鹃形目 + 鸨形目)。
对于水生鸟类,两树一致认为鹱形目和企鹅目有密切关系。鸬鹚科,鹮科,鹭科和鹈鹕科形成连续的姐妹分支,其拓扑结构为(鸬鹚科 + 鹮科) + 鹭科) + 鹈鹕科)(四者都属于鹈形目),且鹈形目与鹱形目-企鹅目进化支形成姐妹群。对于陆生鸟类,两树一致的认为美洲鹫科与鹰科是近亲,形成姐妹分支(两者同属于鹰形目),在此我们将其称为陆鸟群1。鸮形目,鼠鸟目,鹃鴗目,咬鹃目,犀鸟目,䴕形目和佛法僧目形成连续的姐妹分支,其拓扑结构为(䴕形目 + 佛法僧目) + 犀鸟目) + 咬鹃目) + 鹃鴗目) + 鼠鸟目) + 鸮形目),在此我们将其称为陆鸟群2。雀形目,鹦形目,隼形目和叫鹤目形成连续的姐妹分支,其拓扑结构为(雀形目 + 鹦形目) + 隼形目) + 叫鹤目),在此我们将其称为陆鸟群3。在新鸟小纲中,两树一致的认为陆生鸟类的共同祖先是顶端食肉动物。
图2. 由KNA算法得到的47种鸟类的进化发生树(IMU树)
对于两树拓扑结构的差异,可归纳为以下四点:其一,两树虽一致的认为麝雉应该自成一目,但是Jarvis等人认为麝雉与鸻形目,鹤形目形成姐妹群;而Prum等人构建的进化树将其放置在陆鸟的基部,作为其余所有陆鸟的姐妹群,而且认为鹤形目应该自成一大分支,与所有的陆鸟和水鸟形成姐妹分支。其二,Jarvis等人认为火烈鸟科-鸊鷉科与鸽形目是近亲,且紧邻鸡雁小纲; Prum等人认为火烈鸟科-鸊鷉科与岸鸟(鸻形目等)是近亲,紧邻鹤形目,紧邻鸡雁小纲的是鹰形目。其三,Jarvis等人认为(蜂鸟科 + 雨燕科) + 夜鹰科)进化支与(鹃形目 + (蕉鹃目 + 鸨形目)进化支形成姐妹群;Prum等人认为(沙鸡目 + 拟鹑目) + 鸽形目)进化支与(蕉鹃目 + (鹃形目 + 鸨形目)进化支形成姐妹群。其四,在整个陆生鸟类这个大进化支内,Jarvis等人认为拓扑结构为(陆鸟群1 + 陆鸟群2) + 陆鸟群3),而Prum等人认为拓扑结构为(陆鸟群1 + (陆鸟群2 + 陆鸟群3)。
Jarvis和Prum等人构建的进化树都是基于序列联配方法构造的联配进化树,而IMU进化树是基于非联配方法构造的。因此,IMU进化树为解析Jarvis和Prum等构建进化树之争提供了一个新的观察角度。通过三树比较,它们的拓扑结构基本一致,但存在一些差异,分析如下:
一,从进化树整体上看,三树一致把鸟类分为古颚总目和今颚总目,且鸡雁小纲和新鸟小纲共同组成今颚总目,鸡雁小纲由鸡形目和雁形目构成,古颚总目和鸡雁小纲位于进化树的基部。
二,在IMU进化树中,鹃形目与蜂鸟科-雨燕科进化支形成姐妹群,这与Jarvis等人构建的进化树和Prum等人构建的进化树都不同。在IMU进化树中,鸻形目和鹤形目形成姐妹群,这与Jarvis等人构建的进化树相同。然而,在IMU树中鸻形目-鹤形目进化支与火烈鸟科-鸊鷉科进化支形成姐妹分支,但在Prum等人构建的进化树,鸻形目与火烈鸟科-鸊鷉科进化支形成姐妹分支,鹤形目自成一大支。麝雉是一个较为特殊的物种,它在三树中的位置各不相同, IMU进化树认为麝雉与红冠蕉鹃(蕉鹃目)是近亲,Jarvis等人构建的进化树中麝雉与鸻形目,鹤形目形成姐妹分支,Prum等人构建的进化树将其放置在陆鸟的基部,与所有陆鸟形成姐妹群。
三,在IMU进化树中,仓鸮,红腿叫鹤,白尾海雕,白头海雕和游隼这些食肉类猛禽形成了连续的姐妹群,而另外两个进化树中分别位于陆鸟基部。同时,䴕形目,佛法僧目,雀形目,鼠鸟目和咬鹃目形成连续的陆鸟姐妹群,这个陆鸟姐妹群不同于在另外两个进化树中处于进化树的中下端,且紧邻鸡雁小纲,这个结果与Slack [
四,在IMU进化树中,鹦形目与夜鹰科形成了姐妹分支,日鳽目与拟鹑目-沙鸡目进化支形成姐妹群,这些关系都是独特且新奇的。特别需要指出的是鸠鸽科和美洲鹫科,在IMU树中,它们形成了姐妹分支,而在另外两树中,鸠鸽科与沙鸡科-拟鹑科进化支形成了姐妹群。
以上结果说明部分鸟类在IMU进化树中与在另外两树中的分类有差异,为了探究其原因,本文以鸠鸽科分类为例,从序列数据出发研究了其保守序列中频数大于4的12-mer类型(如表3所示)。在IMU树中鸽子与红头美洲鹫形成姐妹分支,而在另外两树中鸽子与黄喉沙鸡、褐拟鹑形成姐妹分支。对比分析发现,鸽子与红头美洲鹫的12-mer高频次类型具有高度相似性(如表3所示,具有相同颜色、下划线等标记的12-mer相同),这应该是导致在IMU树中鸠鸽科和美洲鹫科形成姐妹分支的主要原因。我们猜测这些重复性极高的12联体同时出现在两类鸟的基因组中可能说明它们有某些相似的功能。这是一个鸟的分类研究中值得注意的问题。
本文利用靶定下一代DNA测序技术得到的394个保守片段的DNA序列数据,基于k联体的非联配算法构建了47种鸟类的k(k = 9 − 14)联体NJ进化树,我们称之为IMU进化树。结果显示随着k增加到
频数 | 5 | 6 | 7 | 8 | 9-10 | >10 |
---|---|---|---|---|---|---|
Pigeon | AAAGAAAAAGA ACCTCCTCCTCTT CTGCAGCAGCAG CTTCTTCTTCTT TTCTTCTTCTTG | CTCCTCTTCCTC | TTTTTTTTTTTT TGGGATGGGATG GGGATGGGATGG GGATGGGATGGG GATGGGATGGGA ATGGGATGGGAT AAAAAAAAAAAA A | TGGTGGTGGTGG GTGGTGGTGGTG GGTGGTGGTGGT | TCCTCCTCCTCC CTCCTCCTCCTC | CCTCCTCCTCCT GCTGCTGCTGCT CTGCTGCTGCTG TGCTGCTGCTGC |
Turkey vulture | TCCTCTTCCTCC CCCAGCAGCAGC | CTCCTCTTCCTC | TGGTGGTGGTGG GTGGTGGTGGTG GGTGGTGGTGGT | GCTGCTGCTGCT | CTGCTGCTGCTG CTCCTCCTCCTC CCTCCTCCTCCT TCCTCCTCCTCC | TGCTGCTGCTGC |
Brown mesite | CAGAAGCTGAAG CAGCAGCAGCAG CAGCTGGAGGAG CCAGCAGCAGCT TCCTCCTCCTCC | CTCCTCTTCCTC TTTTTTTTTTTT | CCCAGCAGCAGC | GGTGGTGGTGGT GTGGTGGTGGTG | CTGCTGCTGCTG GCTGCTGCTGCT TGGTGGTGGTGG | TGCTGCTGCTGC |
Yellow-throated sandgrouse | CCTCCTCCTCCT CTCCTCCTCCTC GGTGGTGGTGGT GTGGTGGTGGTG TCCTCCTCCTCC TTTTTTTTTTTT | TGGTGGTGGTGG | TGCTGCTGCTGC | GCTGCTGCTGCT CTGCTGCTGCTG |
表3. 4种鸟类中频数大于的4的12联体
注:表中用相同颜色和下划线等标记的两个12-mer是相同的,通过比较鸽子与红头美洲鹫的12-mer高频次类型,发现它们具有高度相似性。
12时进化树达到稳定,由此表明12联体对于鸟类基因组具有物种特征性,这也意味着12联体频数是能够较好描述进化的动力学变量。同时通过观察IMU进化树的拓扑结构,发现其明确的分为5支。最后,比较了IMU进化树与Prum和Jarvis等构建进化树的异同,分析了鸟类的进化和分类情况,发现三树的各个姐妹分支基本一致。但处于三个树根部的新鸟分类还有明显不同。这可能暗示发生物种大爆发的过程中尚存在某些有待探索的规律。如果核苷酸频数是好的动力学变量,我们就可以写出关于这些变量的时间进化方程,进而把基因组进化方程量子化 [
感谢基金项目;国家自然科学基金资助项目(批准号:61462068和31106188)和内蒙古自治区自然科学基金资助项目(批准号:2014MS0103)对本论文的大力支持。感谢Prum等人为本研究提供了鸟类及其对应化石时间数据。同时,也要对本文中引用文章的作者表示衷心的感谢。
张永芬,周勋,罗辽复,张利绒. 鸟类基因组进化树的构建与分析Construction and Analysis of theAvian Phylogenetic Tree[J]. 计算生物学, 2017, 07(01): 1-11. http://dx.doi.org/10.12677/HJCB.2017.71001