橡胶草(Taraxacum kok-saghyz L. Rodin)是天然橡胶产业最有发展潜力的新型产胶替代作物。除产胶之外它还能够产生菊粉等大量的次生代谢产物。为了进一步阐明橡胶草叶片中次生代谢产物合成的分子机制,本研究以新疆橡胶草幼叶和成熟叶片为材料,采用华大BGISEQ-500平台进行转录组测序,分别得到165,935,798条和166,460,570条的clean reads,并注释到Nr、KOG、KEGG、InterPro和Swiss-Prot数据库中。Unigene共有58,402条被注释结果,通过差异基因表达分析、GO分类和KEGG代谢通路分析,代谢通路分属于136类,其中包括倍萜类化合物、核糖体、黄酮醇和花青素等次生代谢物质生物合成,最后进行差异基因的蛋白互作分析。该研究结果对橡胶草叶片药用活性成分生物的合成与代谢、关键酶基因的克隆以及分子标记开发等研究有一定的参考价值。<br/>Rubber grass (Taraxacum kok-saghyz L. Rodin) is the most promising rubber-producing alternative crop for new natural rubber. It can biosynthesize large amounts of secondary metabolites such as inulin. In order to further clarify the molecular mechanism of secondary metabolite biosynthesis in rubber grass leaves, this study used young and mature leaves of Xinjiang rubber grass as materials, and used the BGISEQ-500 platform for transcriptome sequencing to obtain 165,935,798 and 166,460,570 clean reads, respectively. Annotate to Nr, KOG, KEGG, InterPro and Swiss-Prot databases. Unigene has a total of 58,402 annotated results, and then performed differential gene expression analysis, GO classification, and KEGG metabolic pathway analysis. The metabolic pathways are classified into 136 categories, including the synthesis of sesquiterpenoids, ribosomes, flavonols, anthocyanins, etc., biosynthesis of secondary metabolites, and finally protein-protein interaction analysis of differential genes. The results of this study have certain reference value for the research on the biosynthesis and metabolism of medicinal active ingredients in rubber grass leaves, the cloning of key enzyme genes, and the development of molecular markers.
橡胶草(Taraxacum kok-saghyz L. Rodin)是天然橡胶产业最有发展潜力的新型产胶替代作物。除产胶之外它还能够产生菊粉等大量的次生代谢产物。为了进一步阐明橡胶草叶片中次生代谢产物合成的分子机制,本研究以新疆橡胶草幼叶和成熟叶片为材料,采用华大BGISEQ-500平台进行转录组测序,分别得到165,935,798条和166,460,570条的clean reads,并注释到Nr、KOG、KEGG、InterPro和Swiss-Prot数据库中。Unigene共有58,402条被注释结果,通过差异基因表达分析、GO分类和KEGG代谢通路分析,代谢通路分属于136类,其中包括倍萜类化合物、核糖体、黄酮醇和花青素等次生代谢物质生物合成,最后进行差异基因的蛋白互作分析。该研究结果对橡胶草叶片药用活性成分生物的合成与代谢、关键酶基因的克隆以及分子标记开发等研究有一定的参考价值。
橡胶草,转录组,差异基因,功能分析,次生代谢产物
Quanliang Xie, Qihang Yang, Kunjie Liu, Le Liu, Shuangquan Xie, Fei Wang, Hongbin Li*
College of Agricultural Sciences and College of Life Science, Shihezi University, Shihezi Xinjiang
Received: Jan. 18th, 2021; accepted: Mar. 1st, 2021; published: Mar. 11th, 2021
Rubber grass (Taraxacum kok-saghyz L. Rodin) is the most promising rubber-producing alternative crop for new natural rubber. It can biosynthesize large amounts of secondary metabolites such as inulin. In order to further clarify the molecular mechanism of secondary metabolite biosynthesis in rubber grass leaves, this study used young and mature leaves of Xinjiang rubber grass as materials, and used the BGISEQ-500 platform for transcriptome sequencing to obtain 165,935,798 and 166,460,570 clean reads, respectively. Annotate to Nr, KOG, KEGG, InterPro and Swiss-Prot databases. Unigene has a total of 58,402 annotated results, and then performed differential gene expression analysis, GO classification, and KEGG metabolic pathway analysis. The metabolic pathways are classified into 136 categories, including the synthesis of sesquiterpenoids, ribosomes, flavonols, anthocyanins, etc., biosynthesis of secondary metabolites, and finally protein-protein interaction analysis of differential genes. The results of this study have certain reference value for the research on the biosynthesis and metabolism of medicinal active ingredients in rubber grass leaves, the cloning of key enzyme genes, and the development of molecular markers.
Keywords:Taraxacum kok-saghyz L. Rodin, Transcriptome, Differential Gene, Functional Analysis, Secondary Metabolite
Copyright © 2021 by author(s) and Hans Publishers Inc.
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
橡胶草(Taraxacum kok-saghyz L. Rodin, TKS)也称为俄罗斯蒲公英,属于菊科植物,蒲公英属,橡胶草种,原产于新疆天山边界附近的特克斯河盆地与哈萨克斯坦的天山河谷接壤处 [
早期由于橡胶草基础数据的缺乏,以基因组学、转录组学和蛋白组学等研究方法,挖掘橡胶草农艺性状相关的关键基因越来越受到关注 [
Benninghausl等利用蛋白质组学和代谢组学的方法,在产胶和非产胶的橡胶草根中,Branase诱导乳胶RNA降解,对TKS根部代谢产物和蛋白质组成的影响,并鉴定出多种乳胶特异性蛋白,还包括迄今为止尚未在植物中进行讨论的类脂蛋白。Barnase的表达使有胶橡胶草显出非乳胶的表型,此结果有望作为植物与环境进一步相互作用过程中,对植物产乳胶进行前瞻性分析最有价值的基础,以阐明整个植物界中乳胶的进化和具体分布。此外,不同代谢途径的分子相互作用,也反应了橡胶合成网络关系有了更深入的了解 [
橡胶草的叶片内含有一定量的花青素和菊糖,叶片的副产物在饲料、食品营养和药理等领域有着潜在的应用价值 [
新疆橡胶草幼嫩叶片与成熟叶片取自石河子大学生命科学学院,新疆植物医学资源与利用教育部重点实验室种质资源圃内种植的新疆橡胶草。分别取种植30 d后的幼苗期(leaf_1)和种植120 d后的成熟期(leaf_2)长势良好,将健康的橡胶草叶片组织,迅速置于液氮中并保存至−80℃冰箱,以备试验所用。
使用改良的CTAB法提取橡胶草叶片总RNA,在CTAB方法的基础上,加1%的PVPP,加入β-巯基乙醇的SL 500 μL,两次氯仿抽提,并用RNA级的酚:氯仿:异戊醇 = 25:24:1进一步抽提,最后晾干沉淀,滴加RNase-Free ddH2O 30 μL,得到提取好的RNA溶液,标记备份−80℃保存。
以新疆橡胶草幼苗期与成熟期种植苗的叶片为材料,分别提取叶片总RNA后,使用Nanodrop (Agilent 2100 Bioanalyzer)检测总RNA的浓度、总量、OD260/280、OD260/230和RIN值,RNA纯度使用NanoDropTM的紫外分光光度计检测,结果为A级。将合格总RNA片段化后,逆转录为cDNA,在cDNA的5'-和-3'末端加上接头,再进行PCR扩增,将扩增产物变性环化,最终获得单链环状的DNA文库。上机BGISEQ-500进行转录组测序,测序于华大基因公司(深圳)完成。
测序的原始数据包含接头污染、低质量以及未知碱基N含量(>5%)过高的reads,数据分析之前需要去除这些reads后得到clean reads,以保证结果的可靠性。得到clean reads之后,使用HISAT将clean reads比对到参考基因组序列,使用Bowtie 2将clean reads比对到参考序列,之后再使用RSEM计算基因和转录本的表达水平。
根据样品组之间的差异表达基因(DEG),使用DEseq 2和PossionDis方法进行差异基因检测,为了更直观地展示每个样品在不同FPKM区间的基因数目,对FPKM (FPKM ≤ 1、1 < FPKM < 10、FPKM ≥ 10)的三种情况进行了基因数目的统计,同时使用MA plot展示DEG的分布。然后根据差异基因检测结果,对其Gene Ontology (GO)功能以及KEGG (Kyoto Encyclopedia of Genes and Genomes)生物通路分类富集分析。
为了研究leaf_1和leaf_2优先积累的蛋白质网络,使用了在线数据库STRING (https://string-db.org/)进行了差异表达基因的蛋白互作分析(Protein-protein interaction, PPI)。通过PPI分析,具有相互作用的DEG通常具有相似的功能。根据STRING蛋白互作数据库,对每组差异表达基因进行蛋白互作分析。
对新疆橡胶草幼嫩和成熟叶片分别进行转录组测序,两个组织分别获得了214.16 Mb和211.67 Mb的Raw reads量,经过过滤后reads质量,最终获得幼嫩叶片165.94 Mb和成熟叶片166.46 Mb的clean reads (表1)。
样品名Sample | Total Raw Reads (Mb) | Total Clean Reads (Mb) | Total Clean Bases (Gb) | Clean Reads Q20 (%) | Clean Reads Q30 (%) | Clean Reads Ratio (%) |
---|---|---|---|---|---|---|
leaf_1 | 214.16 | 165.94 | 16.59 | 96.36 | 88.96 | 77.48 |
leaf_2 | 211.67 | 166.46 | 16.65 | 96.36 | 88.83 | 78.64 |
表1. 过滤后的reads质量统计
Total Raw Reads (Mb):过滤前的reads数;Total Clean Reads (Mb):过滤后的reads数;Total Clean Bases (Gb):过滤后的碱基总数;Clean Reads Q20 (%):过滤后的reads中质量值大于20的碱基数占总碱基数的百分比;Clean Reads Q30 (%):过滤后的reads中质量值大于30的碱基数占总碱基数的百分比;Clean Reads Ratio (%):过滤后的reads的比例。
样品名 Samplea | 总reads数 Total Clean Readsb | 总基因组覆盖率 Total Mapping Ratioc | 单基因覆盖率 Uniquely Mapping Ratiod |
---|---|---|---|
leaf_1 | 165,935,798 | 74.73% | 37.76% |
leaf_2 | 166,460,570 | 67.66% | 33.63% |
续表1. 参考基因组比对结果统计
aSample:样品名;bTotal Clean Reads:过滤后的reads总数;cTotal Mapping Ratio:比对上参考基因组的clean reads比例;dUniquely Mapping Ratio:唯一比对上参考基因组某一位置的clean reads比例。
过滤后的reads中质量值大于20和30的碱基数分别占总碱基数的百分比的96.36%和88.90%。过滤后的reads的比例占78%。转录本的质量指标测定,其GC值分别为40.81%和40.76%。
测序结果可用于后进行参考基因组对比,共获得332,396,368条clean reads,其中种植30 d幼苗叶片(leaf_1)共有165,935,798条,种植120 d后的成熟叶片(leaf_2)共有166,460,570条,与对比参考基因组分别占74.73%和67.66%。在Uniquely匹配时其中匹配率分别为37.76%和33.63%。参考基因组中总基因数为47,643条基因,转录测定发现有新的转录本分别为(leaf_1) 35,663条和(leaf_2) 34,119条,还预测了新基因数分别为14,890条和14,009条(表2)。
样品名Sample | 基因总数 Total Genes | 已知基因数 Known Genes | 新基因数 Novel Genes | 转录本总数 Total Transcripts | 已知转录本数 Known Transcripts | 新转录本数 Novel Transcripts |
---|---|---|---|---|---|---|
leaf_1 | 49,820 | 34,930 | 14,890 | 66,082 | 30,419 | 35,663 |
leaf_2 | 49,297 | 35,288 | 14,009 | 65,187 | 31,068 | 34,119 |
表2. 基因、转录本数目统计表
使用Trinity对clean reads进行组装并获得转录本(Transcript),leaf_1与leaf_2的Transcript总数分别为66,082个和65,187个,平均长度分别为737 nt和785 nt,其中200~1000 nt范围的转录本分别有83,461个和94,831个,占总量的75.65%和72.98%;1000~2000 nt的Transcript分别有19,547个和25,608个,占总量的17.72%和19.71%;大于2000 nt的Transcript分别有7316个和9506个,占总量的6.63%和7.32%。
对转录本进行聚类去冗余得到leaf_1和leaf_2的Unigene,leaf_1与leaf_2 Unigene的总数分别为66,749个和76,456个,平均长度分别为917 nt和955 nt,其中200~1000 nt的Unigene分别有44,108个和48,959个,占总量的66.08%和63.04%;1000~2000 nt的Unigene分别有16,193个和19,677个,占总量的24.26%和25.74%;大于2000 nt的Unigene分别有6448个和7820个,占总量的9.66%和10.23%。GC (%)含量分别为40.92%和40.74%。本实验对转录组数据的组装质量、Transcript和Unigene的长度分布情况进行了统计和分析(表1,表2),结果发现为300~1000 nt长度的Unigene所占比重较大,说明测序质量较高可用于后续Unigene的功能注释。
对新疆橡胶草叶片的所有Unigene中的CDS通过进行Blast比对Swiss-Prot数据库和Hmmscan,搜索Pfam蛋白同源序列,从而预测编码区域。从序列长度分布中我们共获得了55,120条CDS序列片段(图1),总长度为52,588,077 nt,其中100~1000 nt的有36,043条占65.40%,1000~2000 nt的有14,799条占26.85%,2000~3000 nt的有3110条占5.64%,大于3000 nt的有1164条占2.11%。
图1. 橡胶草叶片转录组CDS数据长度分布
对测序后组装得到的橡胶草叶片转录组All-Unigene分别注释到七大功能数据库NR、NT、GO、Swiss-Prot、InterPro、KOG、KEGG的数据库(图2(A)),对每个数据库注释的Unigene数目进行统计,共有99,253条Unigene有对应的功能信息,其中,在NR中有58,402条,占总的58.84%;NT有29,578条,占总的29.80%;GO有19,809条,占总的19.96%;Swiss-Prot有38,614条,占总的38.90%;InterPro有47,437条,占总的47.79%;KOG有45,893条,占总的46.24%;KEGG有43,383条,占总的43.71%。
橡胶草叶片转录组Unigene的NR功能分类已获得橡胶草叶片组装的All-Unigene注释到NR数据库,统计共有58,402条Unigene被注释结果。在菜蓟(Cynara cardunculus var. scolymus)、葡萄(Vitis vinifera)、芝麻(Sesamum indicum)、中果咖啡(Coffea canephora)和其它物种中都有同源序列分布。其中,Unigene与菜蓟相似序列占有61.35%;与葡萄相似序列占4.06%;与芝麻相似序列占有2.42%;与中粒咖啡相似的则有2.08%;还有30.09%的Unigene属于其他序列,可能还包含了橡胶草自身特有的基因序列(图2(B))。
图2. All-Unigene在数据库中的物种分布。A:All-Unigene分别注释到七大功能数据库NR、NT、GO、Swiss-Prot、InterPro、KOG、KEGG的数据库和功能分类。B:All-Unigene与菜蓟、葡萄、芝麻、中粒咖啡和橡胶草自身特有的基因序列分布情况
将橡胶草叶片leaf_1与leaf_2进行差异基因表达基因数目比对统计,发现leaf_1与leaf_2对比中12,637个表达基因上调,8103个基因表达下调,33,509个基因没有差异表达(图3)。
图3. 差异表达基因数量统计图
为进一步了解橡胶草幼叶片及成熟叶片响应的相关分子机制,对Differentially expressed gene (DEGs)进行Gene Ontology (GO)富集分析。GO主要分为生物过程(biological process)、分子功能(molecular function)和细胞组分(cellular component)三大类别。leaf_1与leaf_2的差异基因表达经GO分析分别分布的三大类别中,共有52个类型,其中生物过程中包括代谢过程(2750)、细胞过程(2381)和单一生物过程(1525);细胞组成包括细胞部分(2067)、膜组成(1445)和组织部分(1264);分子功能包括催化活性(3131)、结合(2538)和运输活性(2538)等。另外,大多数差异基因与生物过程相关,而参与分子功能的差异基因相对较少。在细胞组分中,以参与细胞、细胞组分、膜、膜组分、细胞器构成的富集最明显。参与生物过程的差异基因主要富集在代谢过程和细胞过程这两个类别;而分子功能中催化活性和结合是leaf_1和leaf_2分子功能差异基因富集的主要类别(图4)。
为了进一步研究差异基因的生物学功能,进行了KEGG通路分析。分析差异基因KEGG代谢通路结果显示,差异表达基因能映射到新陈代谢(Metabolism)、遗传信息处理(Genetic Information Processing)、环境信息处理(Environmental Information Processing)、细胞进程(Cellular Processes)和有机系统(Organismal Systems)的5大类19个一级通路主要途径,其中涉及代谢通路的基因最多,共有10,434个,占到注释KEGG中的基因比例的61.78%。其次是遗传信息处理,占KEGG中的基因比例的23.23% (图5)。一级通路中包括翻译过程有777个基因,碳水化合物代谢有1572个基因,折叠基因1375个,环境适应662个基因,整体代谢和概观代谢基因3761个,氨基酸代谢948个基因,转运和分解代谢基因786个,脂质代谢基因724个等(图5)。这些结果表明,橡胶草幼嫩与成熟叶片差异表达基因主要与折叠与降解,翻译和碳水化合物代谢有关。
图4. Leaf_1-VS-leaf_2差异基因GO功能分类图
除此之外,还分析了前20个KEGG亚通路(图5(B)),结果显示,其中包含3525种基因的最丰富的途径是碳代谢。第二个包含2032个具有次级代谢产物合成的基因。第三子途径具有用于氨基酸的生物合成的675种基因,其次是用于嘧啶和嘌呤代谢的642和641种基因,以及内质网蛋白合成中的579种基因。这些KEGG亚途径中还富含涉及苯丙素和蔗糖代谢,糖酵解,苯丙素类生物合成以及氨基糖和核苷酸糖代谢。这些基因对于许多植物,特别是次级代谢产物和天然橡胶生产植物中类异戊二烯的生物合成至关重要。
图5. 差异基因KEGG Pathway分类。A,leaf_1-VS-leaf_2轴表示基因所占比例,Y轴表示KEGG功能分类。B,前20个亚KEGG通路富集。X轴代表富集因子值(Rich Factor),Y轴代表通路名称,图中圆点的颜色代表Q-value,颜色越浅值越大,越深值越小,值越小代表富集。结果越显著;圆点的大小代表DEGs数目,点越大代表数目越多,越小代表数目越少
橡胶草叶片的蛋白质–蛋白质相互作用(PPI)网络分析可以反映蛋白质数据集的关键要素。为了研究橡胶草幼嫩叶片leaf_1和成熟叶片leaf_2优先积累的蛋白质的网络,使用了在线数据库STRING。对于leaf_1和leaf_2优先积累的蛋白质,可以观察到18个网络簇,其中8个网络簇由不同的颜色代表上调与下调,不同大小表示关系紧密程(图6)。其中最大的簇中的这些基因的蛋白质主要由油菜素类固醇相关蛋白组成。尤其是小亚单位核糖体蛋白和大亚单位核糖体蛋白,以及天冬氨酸氨基甲酰转移酶具有相互作用网络的大多数关键节点。
早在1931年,人们就已经意识到俄罗斯蒲公英具有产胶、食品及其它副产物等应用价值 [
图6. 蛋白互作网络图。红色表示上调,蓝色表示下调,圆圈大小表示相互作用的关系的个数,圆的大小表示表关系的强度,圆圈越大表示关系越密集
AtPAP1在短角蒲公英中的异源表达导致营养组织显示出红色/紫色色素沉着表型,并积累了大量的花色苷。该表型与在拟南芥中过表达AtPAP1所描述的表型一致,并且与在烟草,甘蓝型油菜和番茄中的异源表达相类似 [
国家自然科学基金地区基金项目(32060072);石河子大学高层次人才科研启动项目(XJ2020001202)。
谢全亮,杨起航,刘坤杰,刘 乐,谢双全,王 斐,李鸿彬. 橡胶草幼叶与成熟叶片转录组比较分析Comparative Transcriptome Analysis of Young and Mature Leaves of Taraxacum kok-saghyz L. Rodin[J]. 植物学研究, 2021, 10(02): 85-96. https://doi.org/10.12677/BR.2021.102013