Hans Journal of Computational Biology
Vol. 09  No. 02 ( 2019 ), Article ID: 30774 , 10 pages
10.12677/HJCB.2019.92004

Sequencing and Characterization of the Whole Chloroplast Genome of Triticum paleocolchicum Men.

Tong Wang, Xuming Sun, Lining Zhang, Weihua Zheng, Chuan Chen, Xiaojun Nie*

College of Agriculture, Northwest Agriculture and Forestry University, Yangling Shaanxi

Received: May 24th, 2019; accepted: Jun. 7th, 2019; published: Jun. 14th, 2019

ABSTRACT

Triticum paleocolchicum Men. is one of the specific tetraploid wheats, which plays a vital role in the origin, domestication and evolution of common wheat as the primitive relatives. At present, the genetic information and sequence resource of it is very limited, hindering the further genetic and evolutionary research. To enrich the genetic sequences, we sequenced and assembled the complete chloroplast (cp) genome sequence of Triticum paleocolchicum using the Illumina sequencing. The assembled cp genome is 136,445 bp in size, consisting of four parts, namely LSC (79,993 bp), SSC (12,832 bp) and two IRs (21,815 bp). Gene annotation found that it encoded 109 non-redundant genes, including 76 protein-coding genes, 29 tRNA genes and 4 rRNA genes, 19 of which were located in the IR region with two copies. Of these genes, 16 have introns, of which ycf3 contains two introns. Furthermore, the RNA editing sites of this genome were also predicted and 15 genes were found to have RNA editing sites and a total of 35 RNA editing sites were predicted, which were similar to that of other wheat relatives. Finally, an evolutionary tree was constructed based on the whole chloroplast genome sequence and it showed that Triticum paleocolchicum and other species with AABB were clustered together, while separated with Triticum timopheevii wheat (AAGG). This study enriched the sequence resources of Triticum paleocolchicum and also provided the important data for its molecular identification, marker development and phylogenetic studies.

Keywords:Triticum paleocolchicum, Chloroplast, Phylogenetic Relationship, RNA Editing

科尔希小麦叶绿体全基因组的测序 及其特征分析

王彤,孙旭明,张礼宁,郑玮华,陈川,聂小军*

西北农林科技大学农学院,陕西 杨凌

收稿日期:2019年5月24日;录用日期:2019年6月7日;发布日期:2019年6月14日

摘 要

科尔希小麦(Triticum paleocolchicum Men.)是一种特殊类型的四倍体小麦,作为小麦的原始类型,在普通六倍体小麦的起源、进化以及遗传改良中具有重要地位。目前,有关科尔希小麦的基因组信息及序列资源相当有限。为了丰富科尔希小麦的分子遗传信息,本研究利用Illumina Novaseq平台对科尔希小麦基因组DNA进行了测序,然后以中国春叶绿体基因组为参考,组装获得了科尔希小麦的叶绿体基因组全长序列。特征分析发现,科尔希小麦叶绿体基因组全长为136,445 bp,具有典型的高等植物叶绿体基因组环状四分体结构,由一个长度分别为79,993 bp的长单拷贝区(Large single copy, LSC)、一个12,832 bp的短单拷贝区(small single copy, SSC)和一对21,815 bp的反向重复序列(Inverted repeat, IR)构成;基因注释发现其编码了109个非冗余基因,包括76个蛋白编码基因,29个tRNA基因以及4个rRNA基因,其中19个位于IR区而具有两个拷贝;这些基因中,有16个基因具有内含子,其中ycf3含有2个内含子;进一步,对其RNA编辑位点进行了预测,发现15个基因存在RNA编辑,共预测到了35个RNA编辑位点,这些特征与其他小麦属物种的叶绿体基因组类似。最后,基于叶绿体全基因组序列构建了进化树,发现科尔希小麦与所有AABB型的小麦聚为一类,而AAGG型的提莫菲维小麦为单独一类,这与他们的亲缘关系一致。本研究丰富了科尔希小麦的序列资源,为其分子鉴定、标记开发以及系统发育的研究提供了重要数据。

关键词 :科尔希小麦,叶绿体,系统进化,RNA编辑

Copyright © 2019 by author(s) and Hans Publishers Inc.

This work is licensed under the Creative Commons Attribution International License (CC BY).

http://creativecommons.org/licenses/by/4.0/

1. 引言

叶绿体是植物所特有的细胞器,作为光合作用的主要场所,是一切能量的最初来源 [1] 。叶绿体是具有独立于核基因组外的自身基因组,在细胞内可半自主地进行遗传物质的复制、传递和表达 [2] 。在高等植物中,叶绿体基因组是以多拷贝形式存在的封闭环状DNA分子。高等植物的叶绿体基因组大约编码110~130个基因,且由高度保守的四部分构成,即两个反向重复序列(Inverted repeat, IR),以及一个长单拷贝区(Large single copy, LSC)和一个短单拷贝区(small single copy, SSC)。叶绿体基因组的大小范围为115~165 kb,其大小主要由反向重复序列的长度决定 [3] 。由于叶绿体基因组具有母系遗传、在近缘种高度保守以及遗传变异丰富等特点,其广泛用于物种鉴定、系统发育和分子进化等研究 [4] [5] 。随着新一代测序技术的发展,使得叶绿体全基因组序列测定变得越来越容易,大量植物的叶绿体基因组被解析。截止2019年4月,NCBI收录了2393个。截止到2018年1月7日,NCBI GENOME数据库收录了超过2300个叶绿体基因组,为从叶绿体全基因组水平开展植物的比较基因组学、起源进化、系统发育以及分子鉴定研究提供了重要的数据资源(https://www.ncbi.nlm.nih.gov/genome/)。

科尔希小麦(Triticum paleocolchicum Men.)是一种特殊类型的四倍体农家种小麦,主要分布于普通六倍体小麦起源地的高加索地区,其染色体数2n = 4x = 28,染色体组型为AABB [6] 。作为高加索地区的特色小麦,科尔希小麦可能是当前栽培四倍体和六倍体小麦的原始类型,在小麦的起源、进化以及演化中具有重要的特殊地位。同时,科尔希小麦还具有秆壮、分蘖多、小穗紧密、蛋白质含量较高,并且具有抗条锈病、叶锈病和黑穗病、耐寒、耐热、耐湿性、抗盐等优良性状,是普通小麦遗传改良的重要的种质资源 [7] 。然而,目前有关科尔希小麦分子生物学的研究才刚刚起步,其可利用的序列资源和分子信息十分有限。为了丰富科尔希小麦的序列资源,本研究利用高通量测序技术对其基因组DNA进行了测序,然后基于叶绿体基因组的保守性,利用生物信息学方法组装获得了其叶绿体全基因组序列,并对其基因含量、基因组成等特征进行了初步分析,以期丰富科尔希小麦的分子信息,为其系统发育、分子鉴定及标记开发研究奠定基础,也为其叶绿体基因工程和遗传改良提供有益信息。

2. 材料和方法

2.1. 试验材料

科尔希小麦品种M-1由格鲁吉亚第比利斯大学Keti Natsarishvili博士馈赠,由本实验室保存,并于2017年秋季种植于西北农林科技大学试验1站,在其三叶期时,取其幼嫩叶片,用锡箔纸包裹后液氮速冻,于−80℃冰箱保存备用。

2.2. 高通量测序文库的构建与测序

将科尔希小麦的幼嫩叶片采用改良的CTAB法提取其基因组DNA [8] ,经电泳和分光光度计质检后,送华大基因生物科技有限公司进行测序。将基因组DNA随机大片段,并回收500 bp片段用于测序文库构建,文库构建按照Illumina标准流程进行,质检合格后在Illumina X10平台进行pair-end测序,读长150 bp。将得到的20 G原始序列(Raw Read),用FastQC工具进行质控,然后采用Trimmomatic工具去除带接头的、未能确定碱基类型(N)比例大于10%和质量值低于10的碱基超过50%的reads,最终得到Clean Read,用于后续基因组组装。

2.3. 叶绿体基因组序列的组装、注释

选择普通小麦中国春最新的叶绿体基因组(NCBI序列号为FJ597983)作为参考基因组序列,参照Nie 等 [9] 的方法进行科尔希小麦叶绿体基因组的组装。具体方法如下:首先利用BWA软件 [10] 将上述得到的clean reads与参考基因组进行比对,然后将比对上的reads提取出来,采用Soapdenovo软件 [11] 进行拼接,保留片段大于200 bp的序列(contig),然后利用BLASTN工具将组装得到的序列与参考基因组进行比对,并按照参考基因组的比对先后顺序进行排列,得到科尔希小麦叶绿体基因组草图;最后,将组装前的reads再与组装得到的基因组草图进行mapping,进行补洞,最终得到完整的科尔希小麦叶绿体基因组全序列。采用DOGMA [12] 进行科尔希小麦叶绿体基因组的注释,同时参照中国春叶绿体基因组的注释信息进行手动修正,采用OGDRAW v1.2软件 [13] 绘制了叶绿体基因组图谱。

2.4. 科尔希小麦叶绿体RNA编辑位点鉴定及系统进化分析

根据科尔希小麦叶绿体基因组的注释信息,将其所编码的非冗余的76个蛋白编码基因全长序列提取出来,然后递交到PREP Suite数据库(http://prep.unl.edu/),以默认参数进行RNA编辑位点的预测。从NCBI数据检进行检索,下载获得8个小麦属物种叶绿体全基因组序列,以大麦和二穗短柄草为外缘,利用MEGA 7.0 [14] 软件进行多序列比对,然后采用最大简约法(MP)构建其系统进化树。

3. 结果与分析

3.1. 科尔希小麦叶绿体基因组的测序与分析

利用Nie等的方法,通过高通量测序组装、获得了科尔希小麦的完整叶绿体全基因组序列,并将注释完成的基因组序列提交至GenBank数据库,登录号为MK253668。分析发现,科尔希小麦叶绿体基因组大小为136,445 bp,这与其他禾本科物种叶绿体基因组大小相似 [15] (图1)。其具有典型的高等植物叶绿体基因组环状四分体结构,包括一对反向重复序列(IRA和IRB,大小为21,815 bp),一个SSC区域(大小为12,832 bp)和一个LSC区域(大小为79,993 bp)。基因注释共注释了109个非冗余的基因,其中76个为编码蛋白的基因,29个为tRNA基因以及4个rRNA基因。同时,7个蛋白质编码基因(nadhA,rpl2,rpl23,rp12,rps7,rps15和rps19),4个rRNA基因(rRNA23,rRNA16,rRNA5和rRNA4.5)和8个tRNA

Figure 1. The map of Triticum paleocolchicum chloroplast genome

图1. 科尔希小麦叶绿体基因组图谱

基因(trnH-GUG,trnL-CAU,trnL-CAA,trnV-GAU,trnL-GAU,trnA-UGC,trnR-ACG和trnN-GUU)位于反向重复区域,使得这19个基因具有两个拷贝。因此,科尔希小麦总共编码了128个基因,与其他小麦属物种一致 [16] 。进一步分析发现,SSC区包含了10个蛋白质编码基因和2个tRNA,而LSC区有61个蛋白质编码基因和22个tRNA组成。在108个非冗余基因中,其中14个基因各自具有一个内含子(即rps16,atpF,petB,petD,rpl2,ndhB,ndhA,trnK-UUU,trnG-UUU,trnA-UGC,trnL-UAA,trnV-UAC,rpl16和trnI-GAU),一个基因(ycf3)有两个内含子(表1)。具有内含子的这14个基因中,9个基因位于LSC区中,包括6个蛋白质编码基因和3个tRNA,1个位于SSC,4个位于IR区域中(两个蛋白质编码基因和两个带有一个内含子的tRNA基因)。另外,rps12是一个特殊的反式剪切基因,其5′端外显子位于LSC,3′端外显子位于IR区,这在其他高等植物叶绿体中也有发现。在科尔希小麦叶绿体基因组结构中,由于IR区域中存在4个核糖体RNA(rRNA)基因,导致了IR区的GC含量(43.91%)远高于其LSC (36.28%)和SSC区域(32.19%)的GC含量,这与以前报道的其他高等植物叶绿体基因组特征一致 [16] 。

Table 1. The genes having introns in Triticum paleocolchicum cp genome and the length of the exons and introns (bp)

表1. 科尔希小麦叶绿体基因组中含有内含子基因及其外显子和内含子的长度(单位为bp)

注:rps12基因是个反式剪切基因,5’位于LSC区,3’在IR区。

3.2. 蛋白编码基因的功能归类

将科尔希小麦叶绿体基因组编码的128个基因根据其功能进行了归类,大体可以分为蛋白编码基因、转运RNA基因(tRNA)和核糖体RNA (rRNA)三大类。同时,蛋白编码基因又可进一步分为10小类(表2),其中包括7个光系统I基因,15个光系统II,6个细胞色素复合物b/f亚基基因,6个ATP合酶亚基基因,11个NADH脱氢酶亚基基因,9个核糖体大亚基基因,12个核糖体小亚基基因,4个DNA依赖核酸聚合酶基因,以及1个Rubisco酶大亚基基因和5个其他功能的基因。这些蛋白编码基因的组成与已发现的单子叶植物叶绿体基因组成基本一致 [17] 。这76个蛋白编码基因合计总长度为59,667 bp,共编码了19,889个密码子。

Table 2. Genes found in the assembled Triticum paleocolchicum chloroplast genome

表2. 在科尔希小麦叶绿体亚种中存在的基因

注:a含有两个内含子;b含有单个内含子;c位于IR区具有两个拷贝;d具有分离的两个独立转录单元的基因。

3.3. 科尔希小麦叶绿体基因组的RNA编辑位点的预测

将科尔希小麦叶绿体基因组编码的76个非冗余的蛋白质编码基因递交到Prep-Cp数据库进行RNA编辑位点的预测(表3)。结果在科尔希小麦叶绿体基因组中共预测到分布于15个基因上的35个编辑位点,所有的预测的编辑位点均发生了从C到U的变化,并且所有的编辑均引起了氨基酸的变化,是有义编辑。35个编辑事件共造成了的氨基酸转变类型有9种,分别为A→V、H→Y、L→F、P→S、P→L、S→F、S→L、T→M、T→I,其中S→L和P→L两种转变形式出现次数最多,这与其它禾本科叶绿体基因组RNA编辑的组成特征相似。在发生编辑的所有基因中,ndhB的编辑位点数最多,达9个;之后依次是rpoC2,有5个位点;rpoB有4个位点,ndhA有3个位点、atpB、ndhF和ycf3有2个位点,其余的基因均为1个编辑位点(表3)。对编辑发生的密码子位置进行分析发现这些编辑位点中有4个发生于密码子的第一位,剩余的31个均位于密码子的第二位,在密码子第三位没有编辑现象的发生,这与其他麦类作物的叶绿体RNA编辑位点分布特征相似 [18] 。

Table 3. Prediction of the RNA editing sites in Triticum paleocolchicum chloroplast genome

表3. 科尔希小麦叶绿体RNA编辑位点的组成与分布

注:“氨基酸转变”列中大写字母代表该碱基发生了编辑。

3.4. 系统发育分析

为了明确科尔希小麦与其他小麦属物种的系统进化关系,利用科尔希小麦与其他8个小麦属物种的叶绿体全基因组序列进行了比较并构建了系统进化树。结果发现,小麦属物种的叶绿体基因组高度保守,尤其在基因区域基本完成一致,但在基因间隔区存在一定的序列差异。系统进化分析发现,科尔希小麦与具有AABB基因型的硬粒小麦(Triticum durum)、圆锥小麦(Triticum turgidum)、波斯小麦(Triticum carthlicum)、野生二粒小麦(Triticum dicoccoides)等四倍体小麦,以及具有AABBDD基因型的普通小麦(Triticum aestivum)聚为一类,它们具有非常近的亲缘关系,而与AAGG基因型的提莫菲维小麦(Triticum timopheevii)分属两个不同的进化分支,表明它们间存在遗传差异,亲缘关系较远(图2)。系统进化分析初步揭示了科尔希小麦的系统发育地位和进化关系。

Figure 2. Phylogenetic analysis of the Triticum paleocolchicum and other Triricum species based on full chloroplast genome

图2. 科尔希小麦与其他小麦属物种的系统进化关系

4. 讨论

小麦近缘种是小麦遗传改良的重要种质资源和基因库,发挥着不可或缺的重要作用,加强小麦近缘种的开发与利用对丰富小麦的遗传变异、推动小麦育种的突破具有重要意义 [19] 。科尔希小麦作为一种特色的原始栽培种小麦,具有良好的农艺性状和抗逆特性。但目前有关科尔希小麦研究还比较少,其序列资源和分子遗传信息十分缺乏,使得遗传多样性、基因克隆与发掘以及分子系统进化等研究受到限制。本研究采用Illumina高通量测序技术直接对科尔希小麦基因组总DNA进行测序后,利用生物信息分析方法,结合已知近缘种的叶绿体基因组作为参考,组装、完成了其叶绿体基因组全序列。这是第一个报道的科尔希小麦叶绿体基因组,大大丰富了科尔希小麦的分子序列资源,不仅为科尔希小麦叶绿体分子标记的开发提供了序列资源,而且为从叶绿体全基因组水平分析科尔希小麦分子进化、基因发掘提供了基础数据,为科尔希小麦在小麦属中的进化地位的确认提供了更加准确的依据,对推动科尔希小麦的分子生物学研究、加速其重要关键基因的发掘和克隆具有重要促进作用。在此基础上,我们还将科尔希小麦叶绿体基因组的基因含量和组成进行系统分析,发现其基因组成与其他小麦属物种高度一致,没有大的变异发生,这与前人关于叶绿体基因组在同属物种间具有高度保守性的研究结果一致。

利用高通量测序技术,可以直接对基因组DNA进行测序后再从测序结果分离叶绿体基因组片段,然后组装、获得叶绿体全基因组。此方法克服了传统方法需要先分离叶绿体DNA再测序的瓶颈,大大降低研究难度、减少了工作强度和投入、显著提高了叶绿体基因组测序的效率 [9] [20] 。

最后,本研究对科尔希小麦叶绿体基因组的RNA编辑位点进行了预测,发现存在于15个基因的35个编辑位点,编辑位点的组成与分布与其他小麦属物种一致,暗示叶绿体RNA编辑可能在小麦属物种间高度保守,其产生可能在小麦属物种共同祖先就存在,而且在小麦属物种分化后遗传保留了下来 [18] ,这为进一步开展叶绿体RNA编辑的生物学功能奠定了基础。

基金项目

本项目受西北农林科技大学国家级大学生创新项目“科尔希小麦叶绿体全基因组的测定与分析”(资助号201810712058)资助。

文章引用

王 彤,孙旭明,张礼宁,郑玮华,陈 川,聂小军. 科尔希小麦叶绿体全基因组的测序及其特征分析
Sequencing and Charac-terization of the Whole Chloroplast Genome of Triticum paleocolchicum Men.[J]. 计算生物学, 2019, 09(02): 22-31. https://doi.org/10.12677/HJCB.2019.92004

参考文献

  1. 1. Howe, C.J., Barbrook. A.C., Koumandou, V.L., Nisbet, R.E., Symington, H.A., et al. (2003) Evolution of the Chloro-plast Genome. Philosophical Transactions of the Royal Society B: Biological Sciences, 358, 99-106. https://doi.org/10.1098/rstb.2002.1176

  2. 2. Gray, M.W. (1989) The Evolutionary Origins of Organelles. Trends in Genetics, 5, 294-299. https://doi.org/10.1016/0168-9525(89)90111-X

  3. 3. Jansen, R.K. and Ruhlman, T.A. (2012) Plastid Genomes of Seed Plants. In: Bock, R. and Knoop, V., Eds., Genomics of Chloroplasts and Mitochondria, Springer, Berlin, 103-126. https://doi.org/10.1007/978-94-007-2920-9_5

  4. 4. Burke, S.V., Wysocki, W.P., Zuloaga, F.O., et al. (2016) Evolutionary Relationships in Panicoid Grasses Based on Plastome Phylogenomics (Panicoideae; Poaceae). BMC Plant Biology, 16, 140. https://doi.org/10.1186/s12870-016-0823-3

  5. 5. Blaner, A., Schneider, J. and Roser, M. (2014) Phylogenetic Rela-tionships in the Grass Family (Poaceae) Based on the Nuclear Single Copy Locus Topoisomerase 6 Compared with Chloroplast DNA. Systematics and Biodiversity, 12, 111-124. https://doi.org/10.1080/14772000.2014.890137

  6. 6. Glémin, S., Scornavacca, C., Dainat, J., Burgarella, C., Viader, V., Ardisson, M., Sarah, G., Santoni, S., David, J. and Ranwez, V. (2019) Pervasive Hybridizations in the History of Wheat Relatives. Science Advances, 5, eaav9188. https://doi.org/10.1126/sciadv.aav9188

  7. 7. Feldman, M. and Levy, A.A. (2005) Allopolyploidy: A Shaping Force in the Evolution of Wheat Genomes. Cytogenetic and Genome Research, 109, 250-258. https://doi.org/10.1159/000082407

  8. 8. 谭秀芳, 杜向红, 牛善策, 等. 基于叶绿体序列分析紫茎泽兰在菊科的系统发育[J]. 西北农业学报, 2011, 20(4): 138.

  9. 9. Nie, X., Lv, S., Zhang, Y., Du, X., Wang, L., et al. (2012) Complete Chloroplast Genome Sequence of a Major Invasive Species, Crofton Weed (Ageratina adenophora). PLoS ONE, 7, e36869. https://doi.org/10.1371/journal.pone.0036869

  10. 10. Li, H. and Durbin, R. (2009) Fast and Accurate Short Read Alignment with Burrows-Wheeler Transform. Bioinformatics, 25, 1754-1760. https://doi.org/10.1093/bioinformatics/btp324

  11. 11. Luo, R., Liu, B., Xie, Y., Li, Z., Huang, W., et al. (2012) SOAPdenovo2: An Empirically Improved Memory-Efficient Short-Read De Novo Assembler. SOA Gigascience, 1, 18. https://doi.org/10.1186/2047-217X-1-18

  12. 12. Wyman, S.K., Jansen, R.K. and Boore, J.L. (2014) Automatic An-notation of Organellar Genomes with DOGMA. Bioinformatics, 20, 3252-3255. https://doi.org/10.1093/bioinformatics/bth352

  13. 13. Lohse, M., Drechsel, O. and Bock, R. (2007) Organellar Ge-nome DRAW (OGDRAW): A Tool for the Easy Generation of High-Quality Custom Graphical Maps of Plastid and Mitochondrial Genomes. Current Genetics, 52, 267-274. https://doi.org/10.1007/s00294-007-0161-y

  14. 14. Kumar, S., Stecher, C. and Tamura, K. (2016) MEGA7: Molec-ular Evolutionary Genetics Analysis Version 7.0 for Bigger Datasets. Molecular Biology and Evolution, 33, 1870-1874. https://doi.org/10.1093/molbev/msw054

  15. 15. Nie, X., Zhao, X., Wang, S., Zhang, T., Li, C., Liu, H., Tong, W. and Guo, Y. (2018) Complete Chloroplast Genome Sequence of Broomcorn Millet (Panicum miliaceum L.) and Comparative Analysis with Other Panicoideae Species. Agronomy, 8, 159. https://doi.org/10.3390/agronomy8090159

  16. 16. Bernhardt, N., Brassac, J., Kilian, B. and Blattner, F.R. (2017) Dated Tribe-Wide Whole Chloroplast Genome Phylogeny Indicates Recurrent Hybridizations within Triticeae. BMC Evolutionary Biology, 17, 141. https://doi.org/10.1186/s12862-017-0989-9

  17. 17. Huotari, T. and Korpelainen, H. (2012) Complete Chloroplast Genome Sequence of Elodea canadensis and Comparative Analyses with Other Monocot Plastid Genomes. Gene, 508, 96-105. https://doi.org/10.1016/j.gene.2012.07.020

  18. 18. 王梦醒, 詹豪爽, 吕萌荔, 等. 粗山羊草叶绿体基因RNA编辑位点的鉴定与分析[J]. 麦类作物学报, 2014, 34(10): 1341

  19. 19. 凌宏清. 小麦及其近缘种基因组测序研究进展与发展趋势[J]. 麦类作物学报, 2016, 36(4): 397-403.

  20. 20. Asaf, S., Khan, A.L., Khan, A.R., Waqas, M., Kang, S.M., Khan, M.A., Lee, S.M. and Lee, I.J. (2016) Complete Chloroplast Genome of Nicotiana otophora and Its Comparison with Related Species. Frontiers in Plant Science, 7, 843. https://doi.org/10.3389/fpls.2016.00843

期刊菜单