-
无叶假木贼(Anabasis aphylla L.)隶属于藜科(Chenopodiaceae)假木贼属(Anabasis),半灌木,具有强的抗盐碱能力,在我国主要分布于西北地区[1-2]。无叶假木贼是荒漠植被的主要建群种和优势种[3],常作为防风固沙的植物材料,具有很高的生态价值。同时,其植株提取物包含生物碱、萜类、皂苷类等多种生物活性物质[4],有效治疗疥癣、疥疮和湿疹痒痛,还有效防治菜青虫、蚜虫等多种害虫[5-6]。
叶绿体是一种重要的质体,在植物细胞的光合作用等生物过程中起着关键作用[7]。叶绿体基因组通常比核基因更为保守,对植物系统发育和物种鉴定有重要作用[8-9]。在物种进化过程中,叶绿体基因组在序列、组成、大小和基因含量方面高度保守[10],具有2个反向重复区(inverted repeats, IR)、1个小单拷贝区(small single copy, SSC)和1个大单拷贝区组成的四分体结构(large single copy, LSC)[11]。IR区域的收缩和扩张是叶绿体基因含量和基因组大小变化的主要影响因素[12]。叶绿体基因组中存在一些简单重复序列(SSRs)和单核苷酸多态性(SNP)的热点区域,可产生足够的信息用于物种分类和鉴定[13]。此外,植物叶绿体基因组中的密码子偏好性反映其在进化过程中的分子适应程度和受到的进化压力,同时参与基因的表达[14]。目前,叶绿体基因组序列作为超级条形码,已经在藜科中多个物种的系统发育研究中得到应用[15-16]。然而,假木贼属物种的叶绿体基因组尚未被报道,它们的进化特征和遗传多样性尚不清晰。
本研究首次对假木贼属的无叶假木贼的叶绿体基因组进行测序、组装和注释,进一步分析其叶绿体基因组特征和密码子偏好性等;此外,将其与已公布叶绿体基因组的藜科物种构建系统发育树,进一步筛选种间基因组高变区。本研究目的在于:(1)阐明无叶假木贼与其它藜科物种的进化关系及其在系统发育中的地位;(2)筛选有效的候选分子标记序列和最优密码子,以期为无叶假木贼的分子标记开发、系统进化及叶绿体基因工程研究提供参考。
-
无叶假木贼叶绿体基因组呈典型的双链环状四分体结构(图1),全长为154 084 bp,其中,LSC长85 124 bp,SSC长18 934 bp,IRa和IRb长25 013 bp。叶绿体基因组GC含量为36.25%,其中,SSC、LSC、IR区的GC含量分别为29.26%、33.89%、42.85%。
无叶假木贼叶绿体基因组中共注释到132个基因,包含83个蛋白编码基因,8个rRNA基因,37个tRNA基因和4个假基因。其中,75个基因与自我复制功能相关,45个基因与光合作用功能相关,6个基因编码其它蛋白质,6个基因的功能未知(表1)。16个基因存在双份拷贝,包括6个蛋白编码基因(rpl23、rpl2、rps12、rps7、ndhB、ycf2),6个tRNA基因(trnA-UGC、trnI-GAU、trnL-CAA、trnN-GUU、trnR-ACG、trnV-GAC)和4个rRNA基因(rrn4.5S、rrn5S、rrn16S、rrn23S)。此外,1个tRNA基因(trnM-CAU)在无叶假木贼叶绿体基因组中存在3份拷贝。
基因功能
Gene Function基因分类
Gene group基因
Gene光合作用
Photosynthesis光合系统I
Photosystem IpsaA, psaB, psaC, psaI, psaJ 光合系统II
Photosystem IIpsbA, psbB, psbC, psbD, psbE, psbF, psbH, psbI, psbJ, psbK, psbL, psbM, psbN, psbT, psbZ NADH 脱氢酶
Subunits of NADH dehydrogenasendhA*, ndhB*(2), ndhC, ndhD, ndhE, ndhF, ndhG, ndhH, ndhI, ndhJ, ndhK 细胞色素复合物
Cytochrome b/f complexpetA, petB*, petD*, petG, petL, petN ATP 合成酶
Subunits of ATP synthaseatpA, atpB, atpE, atpF*, atpH, atpI 二磷酸核酮糖羧化酶大亚基
Large subunit of rubiscorbcL 自我复制
Self-replication核糖体大亚基蛋白
Proteins of large ribosomal subunit#rpl23(2), rpl14, rpl16*, rpl2(2), rpl20, rpl22, rpl32, rpl33, rpl36 核糖体小亚基蛋白
Proteins of small ribosomal subunit#rps19, rps11, rps12(2), rps14, rps15, rps16*, rps18, rps19, rps2, rps3, rps4, rps7(2), rps8 RNA 聚合酶亚基
Subunits of RNA polymeraserpoA, rpoB, rpoC1*, rpoC2 核糖体
RNA Ribosomal RNAsrrn16S(2), rrn23S(2), rrn4.5S(2), rrn5S(2) 转运RNA
Transfer RNAstrnA-UGC*(2), trnC-GCA, trnD-GUC, trnE-UUC, trnF-GAA, trnG-GCC, trnG-UCC*, trnH-GUG, trnI-GAU*(2), trnK-UUU*, trnL-CAA(2), trnL-UAA*, trnL-UAG, trnM-CAU(3), trnN-GUU(2), trnP-UGG, trnQ-UUG, trnR-ACG(2), trnR-UCU, trnS-GCU, trnS-GGA, trnS-UGA, trnT-GGU, trnT-UGU, trnV-GAC(2), trnV-UAC*, trnW-CCA, trnY-GUA, trnfM-CAU 其他基因
Other genes成熟酶
MaturasematK 蛋白酶
ProteaseclpP** 膜包被蛋白基因
Envelope membrane proteincemA 乙酰辅酶A羧化酶
Acetyl-CoA carboxylaseaccD c 型细胞色素合成基因
c-type cytochrome synthesis geneccsA 翻译起始因子
Translation initiation factorinfA 未知功能
Unknown function假想叶绿体读码框
Hypothetical chloroplast reading frames#ycf1, ycf1, ycf2(2), ycf3**, ycf4 注:*表示含1个内含子的基因;**表示含有2个内含子的基因;#表示假基因;(n )表示多拷贝基因拷贝数n。
Notes: * indicates the gene containing one intron; ** indicates the gene containing two introns; # indicates the pseudogene; (n) indicates the copy number of the multi-copy gene.Table 1. Gene annotation in the chloroplast genome of Anabasis aphylla
无叶假木贼叶绿体基因组中有16个基因包含内含子,12个基因位于LSC区,3个基因位于IR区,1个基因位于SSC区 (表2)。14个基因包含1个内含子(trnK-UUU、rps16、trnG-UCC、atpF、rpoC1、trnL-UAA、trnI-GAU、petB、petD、rpl16、ndhB、trnV-UAC、trnA-UGC、ndhA),2个基因包含2个内含子(ycf3、clpP)。内含子长度在525 bp(trnL)~2 500 bp(trnK)之间。
基因
Gene位置
Location外显子I
Exon I/bp内含子I
Intron I/bp外显子II
Exon II/bp内含子II
Intron II/bp外显子III
Exon III/bptrnK-UUU LSC 37 2 500 35 rps16 LSC 40 892 197 trnG-UCC LSC 31 708 60 atpF LSC 145 777 410 rpoC1 LSC 432 789 1 602 ycf3 LSC 126 779 228 790 153 trnL-UAA LSC 35 525 50 trnI-GAU LSC 39 576 56 clpP LSC 71 949 294 605 226 petB LSC 6 797 642 petD LSC 8 744 475 rpl16 LSC 9 1 095 360 ndhB IR 775 673 758 trnV-UAC IR 32 946 42 trnA-UGC IR 37 838 36 ndhA SSC 553 1 101 539 Table 2. Information of gene introns in the chloroplast genome of Anabasis aphylla
-
无叶假木贼叶绿体基因组中共有41对长序列重复,其中,正向重复21对,回文重复20对,无互补和反向重复(图2A)。其中,重复长度为30 bp的数量最多,分布在IR区的重复长序列数量最多。无叶假木贼叶绿体基因组中,共确定71个SSR位点,属于12种重复类型(图2B)。其中,A/T重复类型的SSR数量最多,且重复次数在10、11、12次最常见。此外,SSR在基因间区的数量最多(70.4%),其次是位于内含子(14.1%)和蛋白编码序列(12.7%),tRNA和rRNA数量最少(1.4%)(图2 C)。
-
为确定无叶假木贼在藜科的系统位置,将其和19个藜科物种的叶绿体基因组进行系统发育分析,并以2种苋科物种为外类群,构建了ML系统发育树(图3)。结果表明:藜科物种系统发育树共分为2个大的分支,聚类的支持率较高,大部分节点的支持率为100%。第一分支包含聚类组1和聚类组2,聚类组1包含:盐爪爪属、盐角草属和碱蓬属的5个物种;聚类组2包含:假木贼属、梭梭属和猪毛菜属的5个物种。第二分支包含聚类组3和聚类组4,聚类组3包含:滨藜属和藜属的6个物种;聚类组4包含:腺毛藜和菠菜属的4个物种。2个苋科的外群物种单独在一个分支。
-
基于聚类分析结果,将无叶假木贼及其9种近缘种叶绿体基因组序列进行突变热点分析。结果表明:LSC和SSC区的核苷酸多态性明显高于IR区(图4)。序列比对总长度为161 920 bp,序列一致位点长度为138 470 bp, 突变位点数为14 021;核苷酸多态性平均值为0.039 18,范围为0~0.143 43。19个突变位点的核苷酸多态性大于0.1,3个在LSC区,16个在SSC区;19个突变位点分别属于trnS-trnG(exon1)、ndhF-rpl32、rpl32-trnL、rps16(exon1)-trnQ基因间区和ycf1基因区。
-
无叶假木贼及其9种近缘种的边界分析显示:IR区长度变化不大(23 701~25 036 bp),但4个边界区的过渡区域存在一定差异(图5)。藜科10个物种的叶绿体基因组在IRb-LSC边界均存在rps19基因,向LSC区扩张长度在148~173 bp之间。在IRb-SSC边界,梭梭属、猪毛菜属和碱蓬属的5个物种ycf1假基因缺失;其它5个物种的ycf1基因均不同程度的扩张到了SSC区域中,扩张长度在18~4 440 bp之间。在IRa-SSC边界,均存在不同程度的ycf1基因扩张,长度在3~5 426 bp之间。在IRa-LSC边界, 盐爪爪属、盐角草属、猪毛菜属和碱蓬属的6个物种IRa区不存在rps19基因,其余4个物种的rps19基因均没有越过IRa-LSC边界。
-
无叶假木贼叶绿体基因组中RSCU值在0.32(CUG)~2.07(UUA)之间,30个密码子为高频密码子(RSCU > 1),除编码亮氨酸的密码子UUG以G结尾外,其它29种密码子均以A/U结尾(表3)。共确定20个最优密码子(UUU、UAU、UGU、CAU、UCU、UCA、UUA、CUU、CCU、AGA、GAA、ACU、ACA、AAU、GAU、AAA、GUU、GCU、GGU、CAA),均以A/U结尾。
氨基酸
Amino acid密码子
CodonRSCU 氨基酸
Amino acid密码子
CodonRSCU 基因组
Genome高表达基因
High expression
gene低表达基因
Low expression
gene基因组
Genome高表达基因
High expression
gene低表达基因
Low expression
gene苯丙氨酸
Phe/FUUU* 1.38 1.56 1.06 谷氨酰胺
Ile/IAUU 1.52 1.46 0.86 UUC 0.62 0.44 0.94 AUC 0.52 0.30 1.50 络氨酸
Tyr/YUAU* 1.64 1.74 0.36 AUA 0.97 1.24 0.64 UAC 0.36 0.26 1.64 苏氨酸
Thr/TACU* 1.63 1.46 0.81 半胱氨酸
Cys/CUGU* 1.55 1.79 0.63 ACC 0.69 0.53 1.18 UGC 0.45 0.21 1.37 ACA* 1.27 1.55 0.91 组氨酸
His/HCAU* 1.50 1.62 1.06 ACG 0.42 0.47 1.11 CAC 0.50 0.38 0.94 天冬酰胺
Asn/NAAU* 1.56 1.61 0.88 丝氨酸
Ser/SUCU* 1.70 1.87 0.58 AAC 0.44 0.39 1.12 UCC 0.91 0.84 0.89 天冬氨酸
Asp/DGAU* 1.59 1.56 1.00 UCA* 1.19 1.36 0.72 GAC 0.41 0.44 1.00 UCG 0.62 0.60 1.27 赖氨酸
Lys/KAAA* 1.55 1.66 0.86 AGU 1.24 1.17 1.10 AAG 0.45 0.34 1.14 AGC 0.34 0.16 1.44 缬氨酸
Val/VGUU* 1.55 1.76 0.79 亮氨酸
Leu/LUUA* 2.07 2.48 0.91 GUC 0.37 0.40 0.59 UUG 1.17 0.99 0.82 GUA 1.56 1.47 1.10 CUU* 1.25 1.21 0.56 GUG 0.52 0.37 1.52 CUC 0.36 0.34 0.99 丙氨酸
Ala/AGCU* 1.81 2.02 0.66 CUA 0.83 0.62 1.25 GCC 0.63 0.67 1.04 CUG 0.32 0.36 1.47 GCA 1.11 1.11 1.21 脯氨酸
Pro/PCCU* 1.62 1.82 0.94 GCG 0.45 0.19 1.10 CCC 0.71 0.58 1.17 甘氨酸
Gly/GGGU* 1.34 1.45 0.64 CCA 1.18 1.24 0.66 GGC 0.39 0.21 0.86 CCG 0.49 0.36 1.23 GGA 1.65 1.72 1.22 精氨酸
Arg/RCGU 1.45 1.16 0.88 GGG 0.62 0.62 1.28 CGC 0.38 0.10 0.54 谷氨酸
Glu/EGAA* 1.55 1.76 0.94 CGA 1.46 1.46 0.85 GAG 0.45 0.24 1.06 CGG 0.38 0.15 1.25 色氨酸
Trp/WUGG 1.00 1.00 1.00 AGA* 1.70 2.62 0.94 甲硫氨酸
Met/MAUG 1.00 1.00 1.00 AGG 0.62 0.50 1.54 终止子
TERUAA 1.58 2.00 0.88 谷氨酰胺
Gln/QGAA* 1.58 1.74 1.08 UAG 0.57 0.00 0.97 GAG 0.42 0.26 0.92 UGA 0.85 1.00 1.15 注:*表示最优密码子,下划线表示叶绿体基因组中密码子RSCU值大于1。
Notes: * indicates the optimal codon, and the underline indicates that the RSCU value of the codon in the chloroplast genome is greater than 1.Table 3. Relative synonymous codon usage (RSCU) of genes in the chloroplast genome of Anabasis aphylla
进一步通过ENC-plot、ENC分布直方图、PR2-plot和中性绘图,分析无叶假木贼叶绿体基因组中密码子偏好性的影响因素(图6)。由图6A可知:大部分基因分布在期望曲线附近。由图6B可知:大部分基因的ENC值小于ENC期望值,且主要分布在直方图的0~0.1区间内。由图6C可知,分布在四个象限点的数量差异不大,但右下角分布点的数量略高于其它三个象限;这表明除了突变因素,自然选择也是无叶假木贼叶绿体基因组密码子偏好性的影响因素。由图6D可知:GC12和GC3之间相关性系数为0.45,线性回归系数为0.343 6,进一步表明突变因素对密码子使用偏好性的影响占34.36%。因此,无叶假木贼叶绿体基因组密码子使用偏好性主要受自然选择影响,突变等影响因素对其影响较弱。
Chloroplast Genome Phylogeny and Codon Preference of Anabasis aphylla L.
- Received Date: 2022-11-26
- Accepted Date: 2023-02-09
- Available Online: 2023-08-20
Abstract: