• 中国中文核心期刊
  • 中国科学引文数据库(CSCD)核心库来源期刊
  • 中国科技论文统计源期刊(CJCR)
  • 第二届国家期刊奖提名奖
Volume 34 Issue 6
Dec.  2021
Article Contents
Turn off MathJax

Citation:

Genome-wide Identification, Characterization, and Expression Analysis of UGT Gene Family Members in Sea Buckthorn (Hippophae rhamnoides L.)

  • Corresponding author: HE Cai-yun, hecy@caf.ac.cn
  • Received Date: 2021-03-03
    Accepted Date: 2021-09-18
  • Objective To study the characteristics and potential functions of sea buckthorn (Hippophae rhamnoides) and to analyze the biosynthesis mechanism and accumulation pattern of flavonoid glycosides by identifying the UGT gene family members in sea buckthorn. Method BLASTP and hmmsearch were used to identify the members of the HrUGT gene family based on sea buckthorn genome database. The protein physical and chemical properties, phylogenesis, protein motif and gene structure and gene duplication were analyzed by using Prot-Param, MUSCLE, MAGA7.0, MEME and MCScanX. Result 89 HrUGTs containing the plant secondary product glycosyltransferase motif (PSPG) were identified from the sea buckthorn genome. The length of sea buckthorn UGT proteins ranged from 266 to 533 amino acids, the average molecular weight was 50.00 KDa, and the average isoelectric point was 5.89. According to the phylogenetic relationship, the 89 HrUGTs could be divided into 16 major groups. 84 HrUGTs were distributed on 11 chromosomes except chromosome 7. Tandem duplication was a predominant duplication event which caused the expansion of HrUGT genes. Transcriptomic data and RT-qPCR analysis indicated that most of UGT genes had a wide range of fruit development stage expression characteristics. Conclusion The complete information of the HrUGT gene family is obtained, which will benefit the study on the biological functions of HrUGTs.
  • 加载中
  • [1] 宋 彬, 胡安鸿, 田永芝, 等. 沙棘PEPCK基因的克隆及表达研究[J]. 西北植物学报, 2017, 37(10):1934-1940. doi: 10.7606/j.issn.1000-4025.2017.10.1934

    [2]

    Fatima T, Kesari V, Watt I, et al. Metabolite profiling and expression analysis of flavonoid, vitamin C and tocopherol biosynthesis genes in the antioxidant-rich sea buckthorn (Hippophae rhamnoides L.)[J]. Phytochemistry, 2015, 118(9): 181-191.
    [3]

    Fang R, Veitch N C, Kite G C, et al. Enhanced profiling of flavonol glycosides in the fruits of sea buckthorn (Hippophae rhamnoides)[J]. J Agric Food Chem, 2013, 61(16): 3868-3875. doi: 10.1021/jf304604v
    [4]

    Yonekura K, Saito K. Function, structure, and evolution of flavonoid glycosyltransferases in plants[J]. Recent Advances in Polyphenol Research, 2014, 4: 61-82.
    [5]

    Yogendra K M S, Tirpude R J, Maheshwari D T, et al. Antioxidant and antimicrobial properties of phenolic rich fraction of Seabuckthorn (Hippophae rhamnoides L.) leaves in vitro[J]. Food Chem, 2013, 141(4): 3443-3450. doi: 10.1016/j.foodchem.2013.06.057
    [6]

    Rosch D, Krumbein A, Mugge C, et al. Structural investigations of flavonol glycosides from sea buckthorn (Hippophae rhamnoides) pomace by NMR spectroscopy and HPLC-ESI-MS(n)[J]. J Agric Food Chem, 2004, 52(13): 4039-4046. doi: 10.1021/jf0306791
    [7]

    Teleszko M, Wojdylo A, Rudzinska M, et al. Analysis of Lipophilic and Hydrophilic Bioactive Compounds Content in Sea Buckthorn (Hippophae rhamnoides L.) Berries[J]. J Agric Food Chem, 2015, 63(16): 4120-4129. doi: 10.1021/acs.jafc.5b00564
    [8]

    Vogt T, and Jones P. Glycosyltransferases in plant natural product synthesis: characterization of a supergene family[J]. Trends Plant Sci, 2000, 5(9): 380-386. doi: 10.1016/S1360-1385(00)01720-9
    [9]

    Bowles D, Lim E K, Poppenberger B, et al. Glycosyltransferases of lipophilic small molecules[J]. Annu Rev Plant Biol, 2006, 57: 567-597. doi: 10.1146/annurev.arplant.57.032905.105429
    [10]

    Gachon C M, Langlois-Meurinne M, Saindrenan P. Plant secondary metabolism glycosyltransferases: the emerging functional analysis[J]. Trends Plant Sci, 2005, 10(11): 542-549. doi: 10.1016/j.tplants.2005.09.007
    [11]

    Li Y, Baldauf S, Lim E K, et al. Phylogenetic analysis of the UDP-glycosyltransferase multigene family of Arabidopsis thaliana[J]. J Biol Chem, 2001, 276(6): 4338-4343. doi: 10.1074/jbc.M007447200
    [12]

    Li Y, Li P, Wang Y, et al. Genomewide identification and phylogenetic analysis of Family-1 UDP glycosyltransferases in maize (Zea mays)[J]. Planta, 2014, 239(6): 1265-1279. doi: 10.1007/s00425-014-2050-1
    [13]

    Cui L, Yao S, Dai X, et al. Identification of UDP-glycosyltransferases involved in the biosynthesis of astringent taste compounds in tea (Camellia sinensis)[J]. J Exp Bot, 2016, 67(8): 2285-2297. doi: 10.1093/jxb/erw053
    [14]

    Wilson A E, Tian L. Phylogenomic analysis of UDP-dependent glycosyltransferases provides insights into the evolutionary landscape of glycosylation in plant metabolism[J]. Plant J, 2019, 100(6): 1273-1288. doi: 10.1111/tpj.14514
    [15]

    Caputi L, Malnoy M, Goremykin V, et al. A genome-wide phylogenetic reconstruction of family 1 UDP-glycosyltransferases revealed the expansion of the family during the adaptation of plants to life on land[J]. Plant J, 2012, 69(6): 1030-1042. doi: 10.1111/j.1365-313X.2011.04853.x
    [16]

    Lim E K, Ashford D A, Hou B, et al. Arabidopsis glycosyltransferases as biocatalysts in fermentation for regioselective synthesis of diverse quercetin glucosides[J]. Biotechnol Bioeng, 2004, 87(5): 623-631. doi: 10.1002/bit.20154
    [17]

    Trapero A, Ahrazem O, Rubio-Moraga A, et al. Characterization of a glucosyltransferase enzyme involved in the formation of kaempferol and quercetin sophorosides in Crocus sativus[J]. Plant Physiol, 2012, 159(4): 1335-1354. doi: 10.1104/pp.112.198069
    [18]

    Kumar S, Stecher G, Tamura K. MEGA7: Molecular Evolutionary Genetics Analysis Version 7.0 for Bigger Datasets[J]. Mol Biol Evol, 2016, 33(7): 1870-1874. doi: 10.1093/molbev/msw054
    [19]

    Chen C, Chen H, Zhang Y, et al. TBtools: An Integrative Toolkit Developed for Interactive Analyses of Big Biological Data[J]. Mol Plant, 2020, 13(8): 1194-1202. doi: 10.1016/j.molp.2020.06.009
    [20]

    Livak K J, Schmittgen T D. Analysis of relative gene expression data using real-time quantitative PCR and the 2(-Delta Delta C(T)) Method[J]. Methods, 2001, 25(4): 402-408. doi: 10.1006/meth.2001.1262
    [21]

    Huang F C, Giri A, Daniilidis M, et al. Structural and Functional Analysis of UGT92G6 Suggests an Evolutionary Link Between Mono- and Disaccharide Glycoside-Forming Transferases[J]. Plant Cell Physiol, 2018, 59(4): 857-870.
    [22]

    Zhu Y X, Yang L, Liu N, et al. Genome-wide identification, structure characterization, and expression pattern profiling of aquaporin gene family in cucumber[J]. BMC Plant Biol, 2019, 19(1): 345. doi: 10.1186/s12870-019-1953-1
    [23]

    Wu B, Gao L, Gao J, et al. Genome-Wide Identification, Expression Patterns, and Functional Analysis of UDP Glycosyltransferase Family in Peach (Prunus persica L. Batsch)[J]. Front Plant Sci, 2017, 8: 389.
    [24]

    Ren Z, Ji X, Jiao Z, et al. Functional analysis of a novel C-glycosyltransferase in the orchid Dendrobium catenatum[J]. Hortic Res, 2020, 7(1): 111. doi: 10.1038/s41438-020-0330-4
    [25]

    Cheng J, Wei G, Zhou H, et al. Unraveling the mechanism underlying the glycosylation and methylation of anthocyanins in peach[J]. Plant Physiol, 2014, 166(2): 1044-1058. doi: 10.1104/pp.114.246876
    [26]

    Montefiori M, Espley R V, Stevenson D, et al. Identification and characterisation of F3GT1 and F3GGT1, two glycosyltransferases responsible for anthocyanin biosynthesis in red-fleshed kiwifruit (Actinidia chinensis)[J]. Plant J, 2011, 65(1): 106-118. doi: 10.1111/j.1365-313X.2010.04409.x
    [27]

    Morita Y, Hoshino A, Kikuchi Y, et al. Japanese morning glory dusky mutants displaying reddish-brown or purplish-gray flowers are deficient in a novel glycosylation enzyme for anthocyanin biosynthesis, UDP-glucose: anthocyanidin 3-O-glucoside-2"-O-glucosyltransferase, due to 4-bp insertions in the gene[J]. Plant J, 2005, 42(3): 353-363. doi: 10.1111/j.1365-313X.2005.02383.x
    [28]

    Witte S, Moco S, Vervoort J, et al. Recombinant expression and functional characterisation of regiospecific flavonoid glucosyltransferases from Hieracium pilosella L[J]. Planta, 2009, 229(5): 1135-1146. doi: 10.1007/s00425-009-0902-x
    [29]

    Wilson A E, Wu S, Tian L. PgUGT95B2 preferentially metabolizes flavones/flavonols and has evolved independently from flavone/flavonol UGTs identified in Arabidopsis thaliana[J]. Phytochemistry, 2019, 157: 184-193. doi: 10.1016/j.phytochem.2018.10.025
    [30]

    Huang J, Pang C, Fan S, et al. Genome-wide analysis of the family 1 glycosyltransferases in cotton[J]. Mol Genet Genomics, 2015, 290(5): 1805-1818. doi: 10.1007/s00438-015-1040-8
  • 加载中
通讯作者: 陈斌, bchen63@163.com
  • 1. 

    沈阳化工大学材料科学与工程学院 沈阳 110142

  1. 本站搜索
  2. 百度学术搜索
  3. 万方数据库搜索
  4. CNKI搜索

Figures(5) / Tables(2)

Article views(777) PDF downloads(42) Cited by()

Proportional views

Genome-wide Identification, Characterization, and Expression Analysis of UGT Gene Family Members in Sea Buckthorn (Hippophae rhamnoides L.)

    Corresponding author: HE Cai-yun, hecy@caf.ac.cn
  • 1. Key Laboratory of Tree Breeding and Cultivation of National Forestry and Grassland Administration, Research Institute of Forestry, Chinese Academy of Forestry, Beijing 100091, China
  • 2. Experimental Center of Desert Forestry, Chinese Academy of Forestry, Dengkou 015200, Inner Mongolia, China

Abstract:  Objective To study the characteristics and potential functions of sea buckthorn (Hippophae rhamnoides) and to analyze the biosynthesis mechanism and accumulation pattern of flavonoid glycosides by identifying the UGT gene family members in sea buckthorn. Method BLASTP and hmmsearch were used to identify the members of the HrUGT gene family based on sea buckthorn genome database. The protein physical and chemical properties, phylogenesis, protein motif and gene structure and gene duplication were analyzed by using Prot-Param, MUSCLE, MAGA7.0, MEME and MCScanX. Result 89 HrUGTs containing the plant secondary product glycosyltransferase motif (PSPG) were identified from the sea buckthorn genome. The length of sea buckthorn UGT proteins ranged from 266 to 533 amino acids, the average molecular weight was 50.00 KDa, and the average isoelectric point was 5.89. According to the phylogenetic relationship, the 89 HrUGTs could be divided into 16 major groups. 84 HrUGTs were distributed on 11 chromosomes except chromosome 7. Tandem duplication was a predominant duplication event which caused the expansion of HrUGT genes. Transcriptomic data and RT-qPCR analysis indicated that most of UGT genes had a wide range of fruit development stage expression characteristics. Conclusion The complete information of the HrUGT gene family is obtained, which will benefit the study on the biological functions of HrUGTs.

  • 沙棘(Hippophae rhamnoides L.)属胡颓子科多年生落叶灌木、小乔木或乔木[1],原产于俄罗斯、中国和北欧[2]。沙棘营养极高,富含维生素、类胡萝卜素、脂类、甾醇和类黄酮[3]。类黄酮是植物最主要的次生代谢物之一[4],在沙棘叶和果实中大量存在,具有降血糖、降血脂、抗衰老、抗氧化等多种生理活性[5],在食药保健领域受到广泛关注。类黄酮在沙棘中通常以糖基衍生物的形式出现[6],Teleszko等研究发现,黄酮醇糖苷是沙棘中最丰富的酚类化合物[7]。然而,类黄酮在沙棘中的糖基化作用机理仍不清楚。

    糖基化修饰是类黄酮生物合成的关键修饰之一,这种修饰促进类黄酮的溶解性、稳定性和生物活性,以防御和适应环境变化[8]。植物次生代谢物的糖基化是由UDP糖基转移酶(UGT, UDP-glycosyltransferase)催化的[9],可以催化糖基加到底物的特定位置或特定区域。植物中UGT基因长度约为1 000~1 500 bp,UGT基因在植物中保守性较强,尤其在终止密码子附近有一段编码44个氨基酸的极强保守序列,称为PSPG box[10],可以作为挑选UGT基因的依据。作为模式植物,拟南芥UGT家族最早被研究,Li等发现,拟南芥中共有 107 个成员,根据序列同源性被划分为 14 个系统发育组,命名为A-N[11]。随后,在毛果杨、玉米、葡萄、苹果和茶等植物中陆续发现了O、P、Q和 R 组[12-13]。近期,Wilson等分析了65个全序列的植物基因组,应用严格的标准来选择候选的UGTs,并进行系统发育分析,重建了被子植物原有的18个系统发育组(A-R)和OG[14]。在高等植物的进化过程中,A、D、E、G和L这5个组群扩展较快,E组扩展最快,不同物种中E组中的基因占UGT家族的 20%~25%[15]

    迄今,多个物种中的数百个UGT基因已经被克隆出来,并对其功能进行了表征。如Lim等以槲皮素为底物,对拟南芥中91个糖基转移酶进行了鉴定,其中,29个能够催化相关的糖基化反应[16]。Trapero 等对番红花中糖基转移酶功能验证发现,UGT707B1可以催化山奈酚、槲皮素生成相应的糖苷衍生物[17]。然而,与植物基因组中UGT基因庞大的数量相比,功能被验证的特征蛋白的数量仍然相对较低[15]

    本研究基于沙棘基因组信息,对UGT基因家族进行了鉴定和分析,共鉴定到89个沙棘UGT基因成员,划分为16个系统发育分组。本研究对沙棘UGT基因家族的蛋白理化性质、亚细胞定位、染色体分布、基因结构和基因复制进行了预测分析。在此基础上,分析了UGT基因在沙棘果实不同发育时期的表达模式,并通过实时荧光定量PCR进行验证,对日后解析沙棘类黄酮糖苷生物合成机制及其积累模式奠定了基础。

    • 113条拟南芥UGT氨基酸序列下载自拟南芥基因组网站(https://www.arabidopsis.org/),UGT基因家族保守结构域隐马尔科夫模型HMM文件(PF00201,UDPGT.HMM)下载自Pfam(http://pfam.xfam.org/)。首先以拟南芥UGT氨基酸序列作为query序列,使用BLASTP程序搜索沙棘基因组蛋白数据库(未发表),evalue=1 e−15,构建沙棘候选UGT数据集1。通过HMM文件对沙棘基因组蛋白数据库进行hmmsearch搜索,evalue=1 e−20,提取结果文件中比对一致的序列通过hmmbuild程序构建沙棘UGT保守结构域隐马尔科夫模型,并再次进行hmmsearch,构建沙棘候选UGT数据集2。合并2个数据集,提交至CDD、Pfam和SMART数据库验证保守结构域,然后手动删除氨基酸序列小于250 aa和PSPG box不完整的序列。

    • 利用Expasy server的ProtParam工具(https://web.expasy.org/protparam/)计算沙棘中各UGT蛋白的分子量、氨基酸长度和等电点。使用DeepLoc(http://www.cbs.dtu.dk/services/DeepLoc/)预测沙棘UGT蛋白的亚细胞定位。

    • 通过MUSCLE对沙棘UGT蛋白序列进行多重序列比对(http://www.ebi.ac.uk/Tools/msa/muscle/),删除gap区域。利用MEGA 7.0软件,基于比对后的UGT蛋白序列,采用neighbor-joining法,设置bootstrap值为1000,构建系统发育树[18]

    • 通过GSDS在线工具(v2.0 http://gsds.cbi.pku.edu.cn/),输入沙棘基因注释GFF文件,将沙棘UGT的编码序列与其对应的基因组序列进行比较,展示沙棘UGT的外显子内含子信息。为了比较沙棘UGT的差异,本研究利用MEME在线工具对沙棘UGT蛋白的保守基序进行分析,参数设置为:site distribution: zero or one occurrence (of a contributing motif site) per sequence, maximum number of motifs: 10, and optimum motif width ≥ 6 and ≤ 60。

    • 通过自建脚本,从沙棘基因组注释文件中提取沙棘UGT位置信息。使用MCScanX软件分析基因加倍事件。染色体定位和基因加倍信息通过Circos软件绘图展示。

    • 2个沙棘亚种(中国沙棘,“FN”;蒙古沙棘,“XY”)不同果实发育阶段的转录组数据下载自沙棘基因组数据库,使用每百万映射reads的千碱基片段(FPKM)来估计表达水平。利用TBtools软件对数据进行标准化和聚类,并绘制表达量热图[19]

      实时荧光定量PCR分析所用样品为中国林业科学研究院沙漠林业实验中心种植的蒙古沙棘花后21、63、91 d果实,每批样品设置3个生物学重复,采样后迅速使用液氮速冻,并置于−80℃备用。总RNA的提取采用天根公司RNAprep Pure多糖多酚植物总RNA提取试剂盒,参照使用说明书的方法进行提取。反转录试剂盒为TAKARA公司的PrimeScript™ 1st Strand cDNA Synthesis Kit,并按照使用说明进行。用primer Premier 5.0软件对选定的9个HrUGTs进行特异性引物设计,引物信息见表1。实时荧光定量PCR反应体系按照TAKARA公司TB Green® Premix Ex Taq ™ II试剂盒使用说明书配置,PCR反应程序为:95℃ 30 s预变性,95℃ 5 s,60℃ 30 s,40个循环扩增。使用2−ΔΔCT 法计算HrUGT基因的相对表达水平[20],使用Origin 8.0软件作图。

      引物名称
      Primer name
      序列(5′-3′)
      Primer sequence
      引物名称
      Primer name
      序列(5′-3′)
      Primer sequence
      QHrUGT0002FGCCTAAGCCTCGTATCCTCGQLa11g0447FTATTCCCTAGCGCAGGCAT
      QHrUGT0002RCCCATCGTCGTAACCATCAGQLa11g0447RTGGATTCAGATAAGGAGACGGT
      QLa2g0900FAGTTCATTGCTCAAAAGGGTCAQLa11g2592FGAGATGCTTATTGATCGGCTTG
      QLa2g0900RCGTTCTCTGGCAAATCCATAGTTQLa11g2592RTAGTCTATGGGTTCCTCACCTTTAT
      QLa2g3104FGATTCAACCTTCCCAACTCCCQLa12g1442FACCCTTCATTGCTCAGAGTCTC
      QLa2g3104RCACGCCGTTAAGCCTAGCAQLa12g1442RGGATTTTGTCGGTGTTTTCG
      QLa9g0469FCAACCAAATCATCACCCCCTQLa12g2361FCACACCAATGAACATCAATCGT
      QLa9g0469RGAACAGCTATAAAAGCCGTGCQLa12g2361RAACTTTAGGTAGTGGGAAAGACACA
      QLa10g1923FAACTTCTTCTCCAGTCCGCCAT18SFAAACCTTACCAGCCCTTGAC
      QLa10g1923RACTTCATGCCCAATCGACGAG18SRCGCTCGTTATAGGACTTGACC

      Table 1.  The primer sequence for quantitative real-time PCR (RT-qPCR)

    2.   结果分析
    • 对利用BLASTP和hmmsearch两种方法搜索沙棘基因组蛋白数据库获得的110个候选沙棘UGT基因成员,经过验证保守结构域和手动筛选,共鉴定出89个沙棘UGT基因。蛋白理化性质分析结果(表2)表明:沙棘UGT家族各成员蛋白质长度为266~533 aa,平均长度462 aa,蛋白理论分子量平均值为52.00 KDa,平均等电点5.89。82个沙棘UGT家族成员定位于细胞质,6个成员定位于线粒体,1个成员定位于质体。

      基因ID
      Gene ID
      蛋白长度/aa
      Protein length
      分子量/KDa
      Molecular weight
      等电点
      pI
      亚细胞定位
      Subcellular localization
      基因ID
      Gene ID
      蛋白长度/aa
      Protein length
      分子量/KDa
      Molecular weight
      等电点
      pI
      亚细胞定位
      Subcellular localization
      HrUGT0001 485 54.97 5.44 细胞质 La6g1086 503 56.83 6.25 细胞质
      HrUGT0002 483 54.45 4.88 细胞质 La6g1126 490 55.62 6.33 细胞质
      HrUGT0003 486 54.90 6.00 细胞质 La8g0188 457 51.01 5.83 细胞质
      HrUGT0004 485 55.08 5.54 细胞质 La8g0189 266 29.74 6.27 细胞质
      HrUGT0005 478 53.38 5.38 细胞质 La8g0492 495 55.55 6.25 细胞质
      La1g0563 462 52.15 5.26 细胞质 La9g0184 415 46.42 5.63 细胞质
      La1g1021 496 56.08 5.52 细胞质 La9g0185 478 53.30 5.61 细胞质
      La1g1077 515 57.92 6.77 细胞质 La9g0469 482 53.46 6.04 细胞质
      La1g1078 472 52.65 7.19 线粒体 La10g1046 485 54.78 5.30 细胞质
      La1g2297 468 51.73 6.76 细胞质 La10g1047 463 52.58 5.32 线粒体
      La1g2301 473 53.62 5.45 细胞质 La10g1561 489 56.06 6.53 细胞质
      La1g2837 470 52.24 5.57 细胞质 La10g1574 388 44.45 6.28 细胞质
      La2g0136 288 32.71 5.54 细胞质 La10g1923 461 51.48 5.86 细胞质
      La2g0150 490 55.53 5.82 细胞质 La10g1932 468 52.89 5.39 细胞质
      La2g0151 488 55.59 6.01 细胞质 La10g2527 486 55.10 5.49 细胞质
      La2g0165 461 52.49 5.76 细胞质 La10g2528 285 32.18 5.69 线粒体
      La2g0900 467 53.27 5.59 细胞质 La10g2530 288 32.38 4.90 细胞质
      La2g1189 495 56.01 6.81 细胞质 La10g2531 440 49.93 5.50 细胞质
      La2g2279 488 55.39 6.13 细胞质 La10g2632 465 51.88 6.12 细胞质
      La2g2282 499 55.73 5.27 细胞质 La11g0447 490 54.83 5.30 细胞质
      La2g3104 453 50.55 5.17 细胞质 La11g0570 469 52.88 5.75 细胞质
      La3g0020 462 52.27 5.73 细胞质 La11g1107 484 53.88 5.99 细胞质
      La3g0035 456 51.57 5.72 细胞质 La11g1417 481 53.85 6.80 细胞质
      La3g0196 456 51.58 6.21 线粒体 La11g1418 533 60.00 5.13 细胞质
      La3g0199 466 52.30 6.62 细胞质 La11g1941 463 52.33 5.73 质体
      La3g0203 466 52.23 6.84 细胞质 La11g2409 510 58.41 7.64 细胞质
      La3g0694 380 42.57 5.90 细胞质 La11g2588 453 50.38 5.68 细胞质
      La3g0945 470 51.47 6.28 细胞质 La11g2591 458 51.90 5.78 细胞质
      La3g1197 481 53.90 5.27 细胞质 La11g2592 461 52.31 6.22 细胞质
      La3g1210 480 54.52 6.53 细胞质 La11g2624 453 50.62 5.52 细胞质
      La4g1118 475 53.47 6.42 细胞质 La11g2653 450 50.58 6.03 细胞质
      La4g1305 459 51.77 5.94 细胞质 La11g2654 452 50.88 7.99 细胞质
      La4g2072 475 52.35 6.15 细胞质 La12g0379 490 54.82 5.25 细胞质
      La5g0208 470 52.75 5.94 细胞质 La12g0383 490 54.82 5.25 细胞质
      La5g0668 532 58.53 5.69 细胞质 La12g0737 491 55.35 5.77 细胞质
      La5g0841 464 51.91 5.20 细胞质 La12g1195 483 53.20 6.10 细胞质
      La5g0951 476 53.06 6.08 细胞质 La12g1196 474 52.91 6.33 细胞质
      La5g1081 454 50.96 5.24 细胞质 La12g1442 489 55.27 5.14 细胞质
      La5g1082 461 51.85 5.31 细胞质 La12g1628 488 54.56 6.65 细胞质
      La5g1269 478 53.21 6.34 细胞质 La12g1841 446 49.84 5.23 细胞质
      La5g1327 482 54.31 6.04 细胞质 La12g2361 292 32.80 6.76 线粒体
      La5g1328 472 53.10 5.46 线粒体 La12g3948 481 54.07 5.52 细胞质
      La6g1080 487 54.65 7.10 细胞质 La12g4351 444 50.55 5.91 细胞质
      La6g1081 492 55.53 5.40 细胞质 La12g4479 444 50.55 5.83 细胞质
      La6g1082 489 55.19 5.39 细胞质
        注/Notes:HrUGT0001(Sph_Contig02792G000010)、HrUGT0002(Sph_Contig03881_ERROPOS16800000_G000350)、HrUGT0003(Sph_Contig03890_ERROPOS700000_G000100)、HrUGT0004(Sph_Contig03890_ERROPOS700000_G000150)、HrUGT0005(Sph_Contig03932_ERROPOS2100000_G000520)。

      Table 2.  The information of HrUGTs

    • 基于蛋白同源序列的相似性进行功能预测是基因功能研究的重要手段,本研究以沙棘和拟南芥、玉米、山柳兰等植物UGT蛋白序列为基础,构建了系统发育树。图1表明:89个沙棘UGT可被聚类为16个先前鉴定的类群[13],沙棘UGT在O组和Q组均没有分布,大部分沙棘UGT聚集在E(8)、G(8)、D(11)、L(16)和A(17)组。多序列比对分析表明:89个沙棘UGT的C端序列均存在PSPG box,并在 1(W)、4(Q)、8(L)、10(H)、12(S/A)、14(G)、16(F)、19-24(HCGWNS)、27(E)、32-34(GVP)、39(P)、43(D/E)、44(Q)位点高度保守。

      Figure 1.  Phylogenetic tree of UGT proteins of sea buckthorn, Arabidopsis, maize and mouse-ear hawkweed

    • 为了进一步确定沙棘UGT家族的保守结构域特征,利用在线工具MEME创建了10个基序,并从1到10列出(图2)。基序1和基序3为UGT家族保守结构域PSPG box。La4g1035、La5g0208、La11g1107、La5g1327、La4g1118、La10g1561和La10g1574由于1或2个氨基酸的插入并没有匹配到基序3,在后续的分析中发现,这些基因除La5g0208外均未发现表达或表达量极低。A组和R组成员均未发现基序9的存在,这一基序中3个氨基酸(GSS)之前被认为在单糖基转移酶中高度保守[21]

      Figure 2.  Gene structure and architecture of conserved protein motifs in UGT family genes of sea buckthorn

      内含子外显子结构的多样性通常在基因家族的进化中发挥关键作用,并为支持系统发育类群提供了额外的证据[22]。为了进一步了解基因结构,对沙棘UGT的内含子外显子结构进行了分析。在本研究鉴定的89个UGT基因中,45个UGT基因含有内含子(50.6%),其中,40个UGT基因有1个内含子,5个UGT有2个内含子。G组、P组和F组成员大多具有较长的内含子插入。M组、B组和R组成员均不含内含子。

    • 在鉴定出的89个沙棘UGT中,84个UGT被定位于沙棘染色体上。图3表明:在12条沙棘染色体中,只有11条沙棘染色体包含UGT基因。11号染色体包含最多的共13个UGT家族成员,而7号染色体中没有UGT基因存在。12号染色体含有12个UGT基因,10号染色体包含11个UGT基因,4号、8号和9号染色体均只含3个UGT基因。沙棘UGT基因在染色体上的这种不平衡分布,说明沙棘在进化过程中存在遗传变异。

      Figure 3.  Chromosomal distribution and gene duplications of the HrUGTs

      为了揭示沙棘UGT基因家族的扩展和进化机制,对沙棘基因组中潜在的基因复制事件进行了分析。本研究利用MCScanX软件基于氨基酸序列同源性在沙棘全基因组内进行了比对,发现UGT基因家族成员中存在12个串联重复基因簇和11个共线基因对(图3),这一结果表明,串联重复是导致沙棘UGT基因家族扩张的主要复制事件。本研究计算了复制基因间的Ka和Ks值,其比值均小于1,说明UGT基因在进化过程中受到纯化选择。

    • 本研究利用两个沙棘亚种果实3个发育阶段的转录组数据,来进一步了解沙棘UGT基因的表达模式,结果发现:沙棘各UGT在种间和时间上的表达表现出显著差异(图4)。La10g1046,La10g2527和La3g0035只在中国沙棘果实中微量表达,在蒙古沙棘果实中不表达。La2g0165,La3g0199和La1g2297则表现相反;而La9g0469在蒙古沙棘果实中高表达,在中国沙棘中不表达。La5g0668在两个亚种不同发育时期均高表达。La11g2592、HrUGT0002、La12g1442等基因在两个亚种果实中表达较高且随着果实发育表达量逐渐升高。大多数UGT基因主要在果实发育的前期或中期表达量较高,而在果实发育后期表达量降低。

      Figure 4.  Expression profiles of HrUGTs in various developmental stages of two sea buckthorn subspecies

      从沙棘UGT基因所处的系统发育分组看,A组中,La5g0208和La12g2361两个基因表达水平相对较高,且均随果实发育表达量逐渐降低。相似的,La5g0951只在果实发育初期表达,而在果实发育的中到后期均不表达。C组中,La11g1107在两个沙棘亚种果实中均不表达,而La12g1442在两个沙棘中表达量相对较高且主要在果实发育的中后期表达。D组和E组均包含较多的沙棘UGT基因家族成员,但两组基因的表达模式却有着巨大差异。在D组中,除La2g1189外,其他10个基因在中国沙棘中均不表达,这些基因在蒙古沙棘果实中的表达水平也相对较低甚至不表达。而在E组中,除La9g0469在中国沙棘果实中不表达,其余基因在两个沙棘亚种果实中均有一定程度的表达。La11g0447和La11g0570在两个沙棘亚种果实中表达量相对较高,La11g0447在蒙古沙棘中表达量随着果实发育先升高后降低,而在中国沙棘中表现出相反的趋势;La11g0570在中国沙棘中随着果实发育表达量逐渐降低,而在蒙古沙棘果实中的表达水平先小幅升高,在果实成熟时下降到较低水平。F组成员在沙棘果实中除前期有少量表达外,其余时期表达水平较低或不表达。G组中,La12g0737表达量整体较高,在两个沙棘亚种果实中均表现为随着果实发育表达量先升高后降低;La2g2279在中国沙棘果实中有着较高的表达水平,且随着果实发育表达量逐渐升高,而在蒙古沙棘果实发育末期表达量下降到较低水平。L组中,La10g1081和La10g1082均在果实发育中期表达量较高,且蒙古沙棘高于中国沙棘;HrUGT0002随着果实发育表达量逐渐增加,且与发育初期相比HrUGT0002在蒙古沙棘果实成熟期的表达水平提高了16.7倍,而在中国沙棘中达到了25倍。J组和R组中的沙棘UGT基因在果实发育的各个时期均有相对较高的表达水平,H组、I组、K组、M组和N组中各成员在沙棘果实中表达量均相对较低。

      本研究对部分表达差异较大的沙棘UGT利用实时荧光定量PCR进行验证,结果(图5)表明:在蒙古沙棘中HrUGT0002、La2g0900、La9g0469和La11g2592均随果实成熟表达量逐渐上升,而La2g3104、La10g1923、La12g2361总体呈下降趋势,La11g0447和La11g0570基因则在果实发育的中期表达较高。总体来看,实时荧光定量PCR结果与转录组结果基本一致。

      Figure 5.  Expression analysis of selected HrUGTsin various developmental stages using RT-qPCR.

    3.   讨论
    • 为了从功能上对沙棘UGT进行鉴定,通过系统发育分析将鉴定到的89个沙棘UGT基因聚类为16个组。沙棘中的UGT基因约占沙棘全基因组基因总数的0.29%,低于桃(0.6%)[23]和拟南芥(0.44%)[11],高于石斛(0.28%)[24]和玉米(0.23%)[12]的UGT基因占比。A组、L组、D组、G组和E组被认为是高等植物进化过程中进化最快的分组[15],在沙棘中这些分组包含了最多的UGT基因家族成员,这一结果与Ren等[24]和Cui等[13]的研究高度一致。A组中的多数UGT被鉴定为能够催化类黄酮糖苷再次糖基化的糖基转移酶[25-27],本研究发现,沙棘UGT家族A组成员均不含单糖基转移酶中高度保守的C端GSS基序,这一结构特征也暗示着沙棘UGT家族A组成员可能和多糖基类黄酮糖苷的生物合成存在重要联系。O组和Q组在沙棘中未发现有成员存在,这两个分组最早在玉米中鉴定出来[12]并被认为可能与细胞分裂素的糖基化有关。La12g1195、La11g1196和La5g0668被划分为UGT95亚家族,这一亚家族在山柳兰中首先被鉴定出来,能够催化木犀草素和槲皮素的3′-OH基团和山萘酚的7-OH基团糖基化[28]。在石榴[29]和茶树[13]中均发现了UGT95亚家族成员的存在,Cui等将其划为R组[13],在本研究中延续了这一分组的划分。

      在鉴定到的89沙棘UGT基因中,有84个基因被定位到染色体上。这些基因在染色体上通常成簇存在且表现出较高的序列相似性,这一特征与石斛和棉花表现一致[24, 30]。本研究基于序列相似性和基因间距鉴定出12个串联重复基因簇和11个共线基因对,证明串联重复是导致沙棘UGT基因家族扩张的主要复制事件。内含子的位置、丢失和获得可以作为了解基因家族在系统发育类群内进化的重要指标。超过一半(50.6%)的沙棘UGT有内含子插入,低于玉米(60%)[12]和拟南芥(58%)[11]的内含子数量。利用MEME在线工具来搜索UGT蛋白之间共享的保守基序,共发现了10个不同的保守基序,其中,在所有鉴定的UGT中都发现了编码UGT结构域的基序1。这些基序在组间有着显著差异,特别是R组和A组均不含在其他分组中普遍存在的基序9。这些特定的基序可能会导致沙棘UGTs功能的分化。

      了解基因的时空表达模式有助于推测基因的功能。在蒙古沙棘中,48个UGT基因在果实发育过程中表达(FPKM > 1),在中国沙棘中这一数字为51。R组3个成员表达量在两个亚种果实发育时期均较高。除La9g0469外,E组成员在两个亚种果实中均有不同程度的表达。La9g0469在中国沙棘中不表达,而在蒙古沙棘中高表达,且随着果实发育表达量逐渐上升,这种特异性的表达可能对两个亚种果实中代谢物组成造成一定影响。

    4.   结论
    • 本研究在沙棘全基因组范围内鉴定获得89条含有UGT保守结构域的HrUGTs蛋白序列,并划分为16个系统发育分组。同一分组内沙棘UGT具有相似的蛋白基序和基因结构,但在组间存在着巨大差异。沙棘UGT家族在进化过程中受到纯化选择。沙棘UGT基因家族成员在两个沙棘亚种和果实不同发育阶段的表达模式具有显著差异。沙棘UGT基因家族的表达模式和生物信息学分析将为进一步鉴定沙棘类黄酮糖基转移酶功能和催化机理奠定基础。

Reference (30)

Catalog

    /

    DownLoad:  Full-Size Img  PowerPoint
    Return
    Return