• 中国中文核心期刊
  • 中国科学引文数据库(CSCD)核心库来源期刊
  • 中国科技论文统计源期刊(CJCR)
  • 第二届国家期刊奖提名奖

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

滇东南濒危植物长梗杜鹃转录组微卫星特征分析

李太强 刘雄芳 万友名 李正红 李钰莹 刘秀贤 马宏

引用本文:
Citation:

滇东南濒危植物长梗杜鹃转录组微卫星特征分析

    作者简介: 李太强(1993—), 男, 云南凤庆人, 硕士, 主要从事杜鹃属植物保护生物学研究.
    通讯作者: 马宏, hortscience@163.com
  • 基金项目:

    "云南省技术创新人才"培养对象项目 2016HB007

  • 中图分类号: S685.21

Characteristic Analysis of Microsatellites in the Transcriptome of Rhododendron longipedicellatum, an Endangered Species Endemic to Southeastern Yunnan, China

    Corresponding author: MA Hong, hortscience@163.com
  • CLC number: S685.21

  • 摘要: 目的 全面了解滇东南特有濒危植物长梗杜鹃转录组SSR位点的分布及序列特征, 为长梗杜鹃的保护和合理开发利用提供遗传学资料, 为同属植物及近缘种SSR标记的开发及遗传研究提供便利。 方法 利用Illumina Hiseq 4000高通量测序平台对长梗杜鹃叶片进行转录组测序, 再通过MISA软件对测序所得Unigenes进行SSR位点的发掘和分析。 结果 发现含SSR的序列17 354条, 共得到23 192个SSR, 出现频率为31.30%, 平均每3 kb出现1个SSR。二碱基和三碱基重复为长梗杜鹃SSR主要重复单元类型, 分别占SSR总数的69.25%和15.07%, 187种重复基元中, 所占比例最高的是(AG/CT)n(62.01%), 其次是(A/T)n(12.34%)、(AC/GT)n(4.52%)和(AAG/CTT)n(4.23%)。在SSR和CDS的交集基因中, 共发现15 908个SSR位点, 其中2 792个位于编码区, 出现频率为0.076 SSR/kb, 而非编码区为0.344 SSR/kb, 在基因编码区中出现频率最高的是三碱基重复(1 356, 48.57%)。在不同长度重复单元中, 二碱基重复SSR长度变异程度最高, 其次是单碱基重复。长梗杜鹃SSR的频率和长度呈显著负相关(P < 0.01), 相关系数为-0.566。 结论 长梗杜鹃转录组SSR位点的出现频率高、分布密度大、基元类型丰富、重复次数较高、长片段较多, 具有较高的多态性潜能, 用于遗传分析的潜力很大, 能满足该物种的保护遗传学研究。
  • 图 1  长梗杜鹃转录组SSR不同重复类型各基元的比例

    Figure 1.  Motif proportions of each types of repeat in R. longipedicellatum transcriptome

    图 2  长梗杜鹃转录组SSR各重复类型不同重复次数分布频率

    Figure 2.  Percentage of various repeat types with different number of repeats in R. longipedicellatum transcriptome

    图 3  长梗杜鹃转录组SSR重复次数分布频率

    Figure 3.  Frequency of repeat number of SSR in R. longipedicellatum transcriptome

    图 4  长梗杜鹃转录组中SSR的长度分布

    Figure 4.  Length distribution of SSR in R. longipedicellatum transcriptome

    图 5  长梗杜鹃转录组不同长度重复单元SSR长度变异情况

    Figure 5.  Length diversification of SSR in R. longipedicellatum transcriptome

    表 1  长梗杜鹃转录组组装测序结果

    Table 1.  Assembly sequencing results of transcriptome of R. longipedicellatum

    长度范围
    Length range/bp
    转录本
    Transcripts
    比例
    Proportion/%
    无冗余的
    Contig Unigenes
    比例
    Proportion/%
    200~1000 67 851 71.49% 50 213 67.77%
    1000~2000 17 423 18.36% 14 892 20.10%
    2000~3000 6 445 6.79% 5 936 8.01%
    ≥3000 3 187 3.36% 3 051 4.12%
    总数
    Total/个
    94 906 74 092
    总长
    Total length/bp
    82 078 113 69 505 225
    N50长度
    N50 length/bp
    1 470 1 616
    平均长度
    Mean length/bp
    864 938
    下载: 导出CSV

    表 2  长梗杜鹃转录组SSR数据库的部分结果

    Table 2.  Partial result of SSR data in transcriptome of R. longipedicellatum

    Gene_ID 重复类型
    Repeat type
    重复单元
    Repeat motif
    SSR长度
    Length of SSR/ bp
    ]CL10.Contig4 单碱基Mononucleotide (A)13 13
    CL2.Contig2 二碱基Dinucleotide (TC)10 20
    CL4.Contig1 三碱基Trinucleotide (GAG)5 15
    CL761.Contig4 四碱基Tetranucleotide (CAAA)5 20
    CL7329.Contig1 五碱基Pentanucleotide (GGATA)5 25
    CL3540.Contig3 六碱基Hexanucleotide (ATAATC)4 24
    CL3646.Contig2 复合模式Compound pattern (GAC)5
    (GAG)6
    33
    下载: 导出CSV

    表 3  长梗杜鹃转录组SSR各重复类型的分布特征

    Table 3.  The characteristic of various SSR repeat types in R. longipedicellatum transcriptome

    重复类型
    Repeat type
    SSR数量
    Number of SSR
    所占比例
    Proportion/%
    出现频率
    Frequency/ %
    平均距离
    Mean distance/ kb
    分布密度
    Distribution density/(个.Mb-1)
    平均长度
    Mean length/ bp
    单碱基 2 888 12.45 3.90 24.07 41.55 14.67
    二碱基 16 060 69.25 21.68 4.33 230.95 22.99
    三碱基 3 496 15.07 4.72 19.88 50.30 17.83
    四碱基 154 0.66 0.21 451.33 2.22 21.63
    五碱基 285 1.23 0.38 243.88 4.10 21.32
    六碱基 309 1.33 0.42 224.94 4.45 28.89
    小计total 23 192 100 31.3 3.00 333.33 21.23
    下载: 导出CSV
  • [1] 张长芹. 云南杜鹃花[M]. 昆明: 云南科技出版社, 2008: 1.

    [2] 张长芹, 高连明, 薛润光, 等. 中国杜鹃花的保育现状和展望[J]. 广西科学, 2004, 11(4): 354-359. doi: 10.3969/j.issn.1005-9164.2004.04.021

    [3] 程金水, 刘青林. 园林植物遗传育种学(第2版)[M]. 北京: 中国林业出版社, 2010: 452.

    [4] 兰熙, 张乐华, 张金政, 等. 杜鹃花属植物育种研究进展[J]. 园艺学报, 2012, 39(9): 1829-1838.

    [5]

    Cai L, Neilsen J, Dao Z L, et al. Rhododendron longipedicellatum (Ericaceae), a new species from Southeastern Yunnan, China[J]. Phytotaxa, 2016, 282(4): 296-300. doi: 10.11646/phytotaxa.282.4.7
    [6] 吴富勤. 极小种群野生植物大树杜鹃的保护生物学研究[D]. 云南: 云南大学, 2015.

    [7]

    Wang X, Huang Y, Long C. Assessing the genetic consequences of flower-harvesting in Rhododendron decorum Franchet (Ericaceae) using microsatellite markers[J]. Biochemical Systematics and Ecology, 2013, 50: 296-303. doi: 10.1016/j.bse.2013.04.009
    [8] 黄海燕, 杜红岩, 乌云塔娜, 等. 基于杜仲转录组序列的SSR分子标记的开发[J]. 林业科学, 2013, 5: 176-181.

    [9] 马秋月, 廖卓毅, 张得芳, 等. 碧桃花瓣转录组微卫星特征分析[J]. 南京林业大学学报: 自然科学版, 2015, 3: 34-38.

    [10] 陈林, 李龙娜, 杨国栋, 等. 特有植物短丝木犀(Osmanthus serrulatus)转录组微卫星特征分析[J]. 分子植物育种, 2016, 14(4): 959-965.

    [11]

    Cavagnaro P F, Senalik D A, Yang L, et al. Genome-wide characterization of simple sequence repeats in cucumber (Cucumis sativus L. )[J]. BMC Genomics, 2010, 11(1): 569. doi: 10.1186/1471-2164-11-569
    [12]

    Bai T D, Xu L A, Xu M, et al. Characterization of masson pine (Pinus massoniana Lamb. ) microsatellite DNA by 454 genome shotgun sequencing[J]. Tree Genetics & Genomes, 2014, 10: 429-437.
    [13]

    Aggarwal R K, Hendre P S, Varshney R K, et al. Identification, characterization and utilization of EST-derived genic microsatellite markers for genome analyses of coffee and related species[J]. Theoretical and Applied Genetics, 2007, 114(2): 359-372. doi: 10.1007/s00122-006-0440-x
    [14] 许玉兰, 蔡年辉, 康向阳, 等. EST-SSR标记的开发及其在木本植物中的分布特点[J]. 中国农学通报, 2012, 28(4): 1-7.

    [15] 饶龙兵, 杨汉波, 郭洪英, 等. 基于桤木属转录组测序的SSR分子标记的开发[J]. 林业科学研究, 2016, 29(6): 875-882.

    [16] 袁阳阳, 王青锋, 陈进明. 基于转录组测序信息的水生植物莕菜SSR标记开发[J]. 植物科学学报, 2013, 31(5): 485-492.

    [17] 李美芹, 潘叶羽, 钱萍仙, 等. 杜鹃花EST-SSR标记的开发及遗传多样性分析[J]. 植物生理学报, 2016, 52(3): 356-364.

    [18]

    Harr B, Schlotterer C. Long microsatellite alleles in Drosophila melanogaster have a downward mutation bias and short persistence times, which cause their genome-wide under representation[J]. Genetics, 2000, 155(3): 1213-1220. doi: 10.1093/genetics/155.3.1213
    [19] 阮桢媛, 王兵益, 欧阳志勤, 等. 极度濒危植物巧家五针松基因组微卫星特征分析[J]. 植物研究, 2016, 36(5): 775-781.

    [20] 方瑞征, 闵天禄. 杜鹃属植物区系的研究[J]. 云南植物研究, 1995, 17(4): 359-379.

    [21] 蔡年辉, 许玉兰, 徐杨, 等. 云南松转录组SSR的分布及其序列特征[J]. 云南大学学报: 自然科学版, 2015, 37(5): 770-778.

    [22]

    Metzgar D, Bytof J, Wills C. Selection against frameshift mutations limits microsatellite expansion in coding DNA[J]. Genome Research, 2000, 10(1): 72-80.
    [23] 童治军, 肖炳光. 3种烟草基因组SSR位点信息分析和标记开发[J]. 西北植物学报, 2014, 34(8): 1549-1558.

    [24] 李响, 杨楠, 赵凯歌, 等. 蜡梅转录组EST-SSR标记开发与引物筛选[J]. 北京林业大学学报, 2013, 35(1): 25-32.

    [25] 王书珍, 张传进, 程华, 等. 杜鹃花表达序列标签资源中的微卫星信息分析[J]. 湖北林业科技, 2014, 43(2): 7-10. doi: 10.3969/j.issn.1004-3020.2014.02.002

    [26] 张得芳, 李淑娴, 夏涛. 蔷薇科6个属植物EST-SSR特征分析[J]. 植物研究, 2014, 34(6): 810-815.

    [27] 陈琛, 庄木, 李康宁, 等. 甘蓝EST-SSR标记的开发与应用[J]. 园艺学报, 2010, 37(2): 221-228.

    [28]

    Li S X, Yin T M. Map and analysis of microsatellites in the genome of Populus: The first sequenced perennial plant[J]. Science in China Series C: Life Sciences, 2007, 50(5): 690-699. doi: 10.1007/s11427-007-0073-6
    [29]

    Morgante M, Hanafey M, Powell W. Microsatellites are preferentially associated with nonrepetitive DNA in plant genomes. [J]. Nature Genetics, 2002, 30(2): 194-200. doi: 10.1038/ng822
    [30] 王丽鸳, 韦康, 张成才, 等. 茶树花转录组微卫星分布特征[J]. 作物学报, 2014, 40(1): 80-85.

    [31] 刘菁菁, 戴晓港, 王洁, 等. 杨树微卫星序列对基因表达频率的影响及表达序列中微卫星特征的分析[J]. 南京林业大学学报: 自然科学版, 2011, 35(1): 11-14. doi: 10.3969/j.issn.1000-2006.2011.01.003

    [32]

    Reddy P S, Housman D E. The complex pathology of trinucleotide repeats[J]. Current Opinion in Cell Biology, 1997, 9(3): 364-372. doi: 10.1016/S0955-0674(97)80009-9
    [33] 王森, 张震, 姜倪皓, 等. 半夏转录组中的SSR位点信息分析[J]. 中药材, 2014, 37(9): 1566-1569.

    [34]

    Temnykh S, Declerck G, Lukashova A. Computational and experimental analysis of microsatellites in rice (Oryza sativa L. ) frequency, length variation, transposon associations, and genetic marker potential[J]. Genome Research, 2001, 11(8): 1441-1452. doi: 10.1101/gr.184001
  • [1] 李太强刘雄芳李正红万友名刘秀贤张序安静马宏 . 滇东南濒危植物长梗杜鹃的花粉形态及其特性研究. 林业科学研究, 2018, 31(3): 51-59. doi: 10.13275/j.cnki.lykxyj.2018.03.008
    [2] 刘丽婷温强黄小春刘琪璟 . 蕨类植物芒萁幼孢子体转录组高通量测序及特征分析. 林业科学研究, 2016, 29(4): 500-507.
    [3] 王帅邵芬娟李论芦强邱德有 . 穗花杉的转录组测序及其转录组特性分析. 林业科学研究, 2017, 30(5): 759-764. doi: 10.13275/j.cnki.lykxyj.2017.05.008
    [4] 马婧邓楠褚建民纪敬史胜青江泽平成铁龙 . 泡泡刺高通量转录组鉴定及其黄酮类代谢途径初步分析. 林业科学研究, 2016, 29(1): 61-66.
    [5] 饶龙兵杨汉波郭洪英段红平陈益泰 . 基于桤木属转录组测序的SSR分子标记的开发. 林业科学研究, 2016, 29(6): 875-882.
    [6] 郝心怡王哲舒范志斌王丽娟 . 杨树响应腐皮镰刀菌侵染的转录组学分析. 林业科学研究, 2024, 37(): 1-13. doi: 10.12403/j.1001-1498.20230458
    [7] 李珊珊曾艳飞何彩云张建国 . 基于沙棘转录组序列开发EST-SSR分子标记. 林业科学研究, 2017, 30(1): 69-74. doi: 10.13275/j.cnki.lykxyj.2017.01.0010
    [8] 杜明凤丁贵杰 . 基于马尾松干旱转录组的抗旱功能SSR位点分析. 林业科学研究, 2018, 31(5): 9-19. doi: 10.13275/j.cnki.lykxyj.2018.05.002
    [9] 刘雄芳李太强李正红万友名刘秀贤张序安静马宏 . 云南干热河谷地区余甘子转录组分析. 林业科学研究, 2018, 31(5): 1-8. doi: 10.13275/j.cnki.lykxyj.2018.05.001
    [10] 周婧李卓蓉吴江婷 . 不同氮形态处理条件下杨树根尖差异表达基因的特征分析. 林业科学研究, 2022, 35(2): 45-55. doi: 10.13275/j.cnki.lykxyj.2022.02.006
    [11] 张振张含国周宇张磊于宏影张莉 . 红松4个组织的转录组数据分析与次生代谢产物的表达差异初探. 林业科学研究, 2015, 28(4): 597-603.
    [12] 封润霞赵婕张苏芳王建军魏建荣刘建凤 . 绒毛白蜡(Fraxinus velutina Torr)韧皮部响应白蜡窄吉丁(Agrilus planipennis Fairmaire)危害的转录组变化. 林业科学研究, 2021, 34(1): 47-55. doi: 10.13275/j.cnki.lykxyj.2021.01.006
    [13] 邓楠史胜青常二梅刘建锋兰倩江泽平 . 基于中麻黄萌发种子转录组的黄酮类化合物合成途径基因的挖掘. 林业科学研究, 2014, 27(6): 758-763.
    [14] 于淑惠亓倩孙涛王雪庆杨璞冯颖 . 白蜡虫雄虫真蛹转录组分析. 林业科学研究, 2016, 29(3): 413-417.
    [15] 田林尹丹丹成铁龙夏新莉尹伟伦 . 盐胁迫下比拉底白刺差异表达基因的转录组分析. 林业科学研究, 2020, 33(1): 1-10. doi: 10.13275/j.cnki.lykxyj.2020.01.001
    [16] 陈沫何沙娥陈少雄欧阳林男张程张维耀 . 基于转录水平解析尾巨桉径向生长对种植密度的响应. 林业科学研究, 2021, 34(5): 1-12. doi: 10.13275/j.cnki.lykxyj.2021.005.001
    [17] 刘文汝冀胜鑫甄志先 . 感染国槐带化病植株内源激素及转录组分析. 林业科学研究, 2022, 35(1): 141-149. doi: 10.13275/j.cnki.lykxyj.2022.01.016
    [18] 郭晋敏杨升刘星王金旺王文卿陈秋夏 . 秋茄低温胁迫转录组分析及脱落酸信号途径基因挖掘. 林业科学研究, 2023, 36(2): 39-49. doi: 10.12403/j.1001-1498.20220417
    [19] 郜新强王小艳焦伟李娜王静郑丽月王丹宁王兴云侯立江尚增振刘彦珍 . 金丝楸幼苗响应盐碱胁迫的生理和转录组分析. 林业科学研究, 2023, 36(1): 166-178. doi: 10.12403/j.1001-1498.20220180
    [20] 梁锐涛韩维栋杨少瑕陈蓓蓓 . 无瓣海桑根响应盐胁迫的转录组分析. 林业科学研究, 2023, 36(1): 68-78. doi: 10.12403/j.1001-1498.20230142
  • 加载中
图(5) / 表(3)
计量
  • 文章访问数:  4307
  • HTML全文浏览量:  1009
  • PDF下载量:  729
  • 被引次数: 0
出版历程
  • 收稿日期:  2016-07-14
  • 刊出日期:  2017-08-01

滇东南濒危植物长梗杜鹃转录组微卫星特征分析

    通讯作者: 马宏, hortscience@163.com
    作者简介: 李太强(1993—), 男, 云南凤庆人, 硕士, 主要从事杜鹃属植物保护生物学研究
  • 中国林业科学研究院资源昆虫研究所, 云南 昆明 650233
基金项目:  "云南省技术创新人才"培养对象项目 2016HB007

摘要:  目的 全面了解滇东南特有濒危植物长梗杜鹃转录组SSR位点的分布及序列特征, 为长梗杜鹃的保护和合理开发利用提供遗传学资料, 为同属植物及近缘种SSR标记的开发及遗传研究提供便利。 方法 利用Illumina Hiseq 4000高通量测序平台对长梗杜鹃叶片进行转录组测序, 再通过MISA软件对测序所得Unigenes进行SSR位点的发掘和分析。 结果 发现含SSR的序列17 354条, 共得到23 192个SSR, 出现频率为31.30%, 平均每3 kb出现1个SSR。二碱基和三碱基重复为长梗杜鹃SSR主要重复单元类型, 分别占SSR总数的69.25%和15.07%, 187种重复基元中, 所占比例最高的是(AG/CT)n(62.01%), 其次是(A/T)n(12.34%)、(AC/GT)n(4.52%)和(AAG/CTT)n(4.23%)。在SSR和CDS的交集基因中, 共发现15 908个SSR位点, 其中2 792个位于编码区, 出现频率为0.076 SSR/kb, 而非编码区为0.344 SSR/kb, 在基因编码区中出现频率最高的是三碱基重复(1 356, 48.57%)。在不同长度重复单元中, 二碱基重复SSR长度变异程度最高, 其次是单碱基重复。长梗杜鹃SSR的频率和长度呈显著负相关(P < 0.01), 相关系数为-0.566。 结论 长梗杜鹃转录组SSR位点的出现频率高、分布密度大、基元类型丰富、重复次数较高、长片段较多, 具有较高的多态性潜能, 用于遗传分析的潜力很大, 能满足该物种的保护遗传学研究。

English Abstract

  • 杜鹃花是杜鹃花科(Ericaceae)杜鹃属(Rhododendron)植物的总称,是“世界三大园艺植物”和“中国十大天然名花”之一。我国具有最丰富的资源蕴藏量,为世界杜鹃花育种做出了巨大贡献。近百年来,国外培育出了数以千计的杜鹃花新品种,既改变了国外园林的风貌,又使杜鹃花形成了一种世界性园艺产业[1]。而我国杜鹃花引种驯化工作起步较晚,育种工作断断续续,所育品种较少[2]。目前,国际上杜鹃花的花色育种趋势为纯色花,特别是纯正、明亮的黄色和恬静的蓝色等更显珍贵[3];同时,周年供应鲜花对于杜鹃花生产具有重要意义[4]。因此,选择观赏性高、抗逆性强、花期长等优良种质作为杂交育种的亲本材料尤为重要,其中长梗杜鹃(Rhododendron longipedicellatum Lei Cai & Y.P. Ma)就是众多野生资源中难能可贵的育种材料。

    长梗杜鹃系杜鹃属、杜鹃亚属(Subg. Rhododendron)、越桔杜鹃组(Sect. Vireya)、类越桔杜鹃亚组(Subsect. Pseudovireya)常绿植物。花冠颜色为明亮的纯黄色,无任何斑点。更令人称奇的是,其花期11月下旬至翌年的2月上旬,时值春节且长达3个月之久[5]。由于人类活动使得生境破坏日益严重,该种分布范围已非常狭窄,仅分布于滇东南海拔1 183~1 316 m左右的石灰岩山上。为了保护以及合理开发利用这一珍稀杜鹃种类,本课题组目前正在开展针对该稀有濒危种的引种驯化及保护生物学研究。

    遗传多样性是生物多样性最基本的组成部分,也是保护生物学研究的核心目标。近年来,基于微卫星(microsatellite or simple sequence repeat)标记的杜鹃属植物遗传多样性和遗传结构研究已有一些报道。吴富勤[6]利用14个SSR标记分析了极小种群野生植物大树杜鹃(R. protistum var. giganteum Forrest et Tagg chambeniain)2个残存居群的遗传结构、遗传多样性和历史动态;Wang等[7]利用8个SSR位点评估了当地居民采食花朵对大白花杜鹃(R. decorum Franch.)的遗传影响。但目前杜鹃花中可利用的SSR标记较少,限制了其在杜鹃花种质资源评价中的应用。鉴于此,本研究利用Illumina Hiseq 4000最新高通量测序平台,对长梗杜鹃叶片进行转录组测序和组装,从获得的Unigenes序列中检测SSR位点,并对其序列特征、组成和变异规律开展分析,以期为后续长梗杜鹃大批量EST-SSR标记开发,进而进行遗传多样性和遗传结构分析,以及长梗杜鹃的保护和合理开发利用提供遗传学资料。同时,也丰富了杜鹃属植物的EST数据库,为同属植物及近缘种SSR标记的开发及遗传研究提供便利。

    • 采自云南省麻栗坡县,海拔高度约1 270 m。于2016年10月采集长梗杜鹃植株的幼嫩叶片,立即置于液氮中,带回实验室于﹣80℃冰箱中保存备用。

    • 用“试剂盒提取法”对所采集的材料进行RNA提取,送华大基因有限公司(BGI)进行高通量测序。测序完成后先对原始数据进行过滤,然后使用Trinity对过滤后的reads进行de novo组装,最后使用Tgicl进行聚类去冗余得到最终的Unigenes。

    • 利用Perl操作平台下的MISA软件(misa-microsatellite identification tool, MISA, http://pgrc.ipk-gatersleben.de/misa/)搜索长梗杜鹃Unigenes中潜在的1~6 bp的SSR位点,参数设置为:单碱基、二碱基、三碱基、四碱基、五碱基、六碱基的最短重复分别为12、6、5、5、4、4,复合SSR两个位点间最大间隔碱基数为100。采用Excel软件统计长梗杜鹃SSR位点的数量、出现频率、分布的平均距离、重复单元类型和比例、重复单元碱基组成以及序列长度变异,并结合SSR和CDS的位置信息判断SSR的落点,全面了解其转录组SSR的序列特征。

    • 测序获得58.30 Mb的Raw Reads,过滤后得到44.85 Mb的Clean Reads,总碱基数为6.73 Gb,Q20(质量值大于20的碱基数目占总碱基数目的比例)为98.22%,所得序列的数量及质量均较高。对Clean Reads进行组装得到94 906个转录本(Transcripts),其长度主要分布在200~2 000 bp之间,占转录本总数的89.85%。将这些转录本进一步聚类去冗余得到74 092条Unigenes,其中聚类(clusters)的Unigenes为51 505条,单独(singletons)的Unigenes为22 587条;GC(碱基)含量为43.20%,长度在1 kb以上的有23 879条,占Unigenes总数的32.23%(表 1)。

      表 1  长梗杜鹃转录组组装测序结果

      Table 1.  Assembly sequencing results of transcriptome of R. longipedicellatum

      长度范围
      Length range/bp
      转录本
      Transcripts
      比例
      Proportion/%
      无冗余的
      Contig Unigenes
      比例
      Proportion/%
      200~1000 67 851 71.49% 50 213 67.77%
      1000~2000 17 423 18.36% 14 892 20.10%
      2000~3000 6 445 6.79% 5 936 8.01%
      ≥3000 3 187 3.36% 3 051 4.12%
      总数
      Total/个
      94 906 74 092
      总长
      Total length/bp
      82 078 113 69 505 225
      N50长度
      N50 length/bp
      1 470 1 616
      平均长度
      Mean length/bp
      864 938
    • 利用Perl操作平台下的MISA软件对长梗杜鹃转录组所得74 092条Unigenes中1~6 bp的SSR进行查找,共搜索到23 192个SSR位点,包含2 826个复合型SSR,分布于17 354条Unigenes上,其中4 402条Unigenes含有2个或2个以上的SSR,部分SSR信息见表 2

      表 2  长梗杜鹃转录组SSR数据库的部分结果

      Table 2.  Partial result of SSR data in transcriptome of R. longipedicellatum

      Gene_ID 重复类型
      Repeat type
      重复单元
      Repeat motif
      SSR长度
      Length of SSR/ bp
      ]CL10.Contig4 单碱基Mononucleotide (A)13 13
      CL2.Contig2 二碱基Dinucleotide (TC)10 20
      CL4.Contig1 三碱基Trinucleotide (GAG)5 15
      CL761.Contig4 四碱基Tetranucleotide (CAAA)5 20
      CL7329.Contig1 五碱基Pentanucleotide (GGATA)5 25
      CL3540.Contig3 六碱基Hexanucleotide (ATAATC)4 24
      CL3646.Contig2 复合模式Compound pattern (GAC)5
      (GAG)6
      33

      序列组装去冗余后总长度为69 505 225 bp(表 1),SSR的发生频率(含SSR位点的Unigenes数与总Unigenes之比)为23.42%,包含SSR的一致序列出现频率(检出的SSR个数与总Unigenes序列数之比)为31.30%。SSR的分布密度为0.334 SSR/kb,平均每3 kb出现1个SSR位点;搜索到的SSR序列总长度为543.322 kb(0.78%),说明在长梗杜鹃转录组中SSR序列小于整个转录组序列的百分之一(表 3)。

      表 3  长梗杜鹃转录组SSR各重复类型的分布特征

      Table 3.  The characteristic of various SSR repeat types in R. longipedicellatum transcriptome

      重复类型
      Repeat type
      SSR数量
      Number of SSR
      所占比例
      Proportion/%
      出现频率
      Frequency/ %
      平均距离
      Mean distance/ kb
      分布密度
      Distribution density/(个.Mb-1)
      平均长度
      Mean length/ bp
      单碱基 2 888 12.45 3.90 24.07 41.55 14.67
      二碱基 16 060 69.25 21.68 4.33 230.95 22.99
      三碱基 3 496 15.07 4.72 19.88 50.30 17.83
      四碱基 154 0.66 0.21 451.33 2.22 21.63
      五碱基 285 1.23 0.38 243.88 4.10 21.32
      六碱基 309 1.33 0.42 224.94 4.45 28.89
      小计total 23 192 100 31.3 3.00 333.33 21.23
    • 在长梗杜鹃转录组SSR数据库中,以二碱基为重复单元的SSR含量最多,占总数的69.25%,其次是三碱基和单碱基,分别占15.07%和12.45%。而四、五、六碱基重复单元所占比例均较低且依次递增(表 3)。相应地不同重复单元的SSR含量、出现频率、分布密度以及分布的平均距离变化也很大。其中,SSR含量、出现频率、分布密度的变化规律一致,依次为:二碱基>三碱基>单碱基>六碱基>五碱基>四碱基;与之对应的平均距离以四碱基最高,为451.33 kb;以二碱基最低,为4.33 kb,且二者的差异达104倍,即该转录组序列中每出现104个二碱基重复类型才出现1个四碱基重复类型的SSR。

    • 考虑碱基互补作用,在长梗杜鹃转录组23 192个SSR中共发现187种重复基元,其中单、二、三、四、五、六碱基重复分别有2、4、10、22、56和93种,不同碱基的重复基元所占比例差异较大(图 1)。单碱基重复类型中以A/T为主要重复基元,占该类型的99.07%;二碱基重复类型中各基元所占比例依次为:AG/CT(89.55%)>AC/GT(6.53%)>AT/AT(3.64%)>CG/CG(0.27%);三碱基重复类型中AAG/CTT最多(28.09%),其次是AGG/CCT(13.27%)、ACC/GGT(13.27%);AAAG/CTTT(16.88%)、AAAAG/CTTTT(12.63%)和AGAGGG/CCCTCT(12.94%)分别为四、五、六碱基重复类型的优势重复基元,且分别有5、20、41种基元里只有1个SSR。

      图  1  长梗杜鹃转录组SSR不同重复类型各基元的比例

      Figure 1.  Motif proportions of each types of repeat in R. longipedicellatum transcriptome

      整体来看,在长梗杜鹃转录组中最丰富的SSR类型是二碱基重复,其次是三碱基重复,最主要的优势重复基元分别是(AG/CT)n、(A/T)n、(AC/GT)n及(AAG/CTT)n,分别占总SSR数量的62.01%、12.34%、4.52%和4.23%。此外,还发现了44个在植物转录组中不常见的CG/CG基元,以及240个在双子叶植物中很少见的CCG/CGG基元。

    • 对SSR和CDS(编码区)的交集基因进行检测,共发现15 908个SSR位点,其中仅有2 792个位点存在于编码区,位于非编码区的位点达到12 555个,另有561个位点跨越了蛋白编码区和非编码区。编码区SSR的出现频率(编码区中检出的SSR个数与CDS总长度之比)为0.076 SSR/kb,而在非编码区中为0.344 SSR/kb,这说明非编码区SSR出现频率大约是编码区的4.5倍。在基因编码区2 792个位点中,所占比例最高的是三碱基重复(1 356, 48.57%),其次是二碱基重复(808, 28.94%)和单碱基重复(275, 9.85%),此外还发现(225, 8.06%)个复合型SSR。非编码区则是二碱基重复最多(8 306, 66.16%),其次是单碱基重复(1 283, 10.22%)。

    • SSR重复次数的不同会导致重复片段长度发生变异,进而影响其多态性。长梗杜鹃转录组中SSR各重复类型的重复次数分布范围较广,波动于4~117次,且多集中于4~25次(图 2)。

      图  2  长梗杜鹃转录组SSR各重复类型不同重复次数分布频率

      Figure 2.  Percentage of various repeat types with different number of repeats in R. longipedicellatum transcriptome

      其中,单、二、三、四、五、六碱基分别重复12~117、6~50、5~22、5~10、4~8和4~15次,且表现为随着重复次数以及碱基数量的增加,SSR出现的频率降低,仅当二碱基重复从10次增加到11次时,SSR数量出现了较大增加的情况。重复基元以重复6次的频率最高,共有SSR 3 630个,占SSR总数的15.65%,其次是7次(2 587,11.15%)、5次(2 176,9.38%)、8次(2 144,9.24%),25次以上的SSR仅有340个,占总SSR的1.47%。总体来看,SSR的重复次数以4~10次较多,占59.12%,11~20次的占35.97%,而重复次数在20次以上的不足5%,表现为SSR数量随着重复次数的增加呈明显下降的趋势(图 3)。

      图  3  长梗杜鹃转录组SSR重复次数分布频率

      Figure 3.  Frequency of repeat number of SSR in R. longipedicellatum transcriptome

    • 长梗杜鹃转录组中SSR序列的长度存在显著变异,长度由12~117 bp不等,平均长度为21.23 bp,通过正态性检验,其偏度(Sk)和峰度(Ku)均大于零,不符合正态分布;单碱基重复长度变化范围最大(12~117 bp),其中以A/T基元长度变化范围最大(12~117 bp),其次是AG/CT(12~100 bp)。单碱基、二碱基、三碱基、四碱基、五碱基和六碱基的平均长度分别为14.67、22.99、17.83、21.63、21.32和28.89 bp(表 3),且各碱基重复类型均表现为随着重复片段长度的增加,SSR出现的频率降低,即各碱基重复区段片段长度与其对应的SSR数量成相反的变化趋势。从全部碱基来看,12 bp长的SSR在长梗杜鹃转录组中所占比例最高,为14.46%,其次是15 bp(10.56%)、14 bp(10.48%)和18 bp(9.53%),其中长度≥20 bp的SSR位点有7 698个,占SSR总数的42.90%(图 4)。

      图  4  长梗杜鹃转录组中SSR的长度分布

      Figure 4.  Length distribution of SSR in R. longipedicellatum transcriptome

      进一步对长梗杜鹃不同长度重复单元SSR的长度变异情况进行分析,分别描述了各碱基重复不同长度SSR在饼图中的占比,图中各扇区对应不同长度的SSR,频率≤1%的SSR合并在同一黑色扇区内(图 5)。从图中可知,二碱基重复SSR的长度变异程度最高,有40种不同SSR变化长度;其次是单碱基,有28种;三碱基、六碱基、四碱基重复SSR长度变异程度依次降低,五碱基最低,仅4种变化长度。长梗杜鹃转录组SSR的序列长度与其出现频率的Pearson相关性分析表明二者在0.01水平(双侧)上显著负相关,相关系数为-0.566。

      图  5  长梗杜鹃转录组不同长度重复单元SSR长度变异情况

      Figure 5.  Length diversification of SSR in R. longipedicellatum transcriptome

    • 本研究通过长梗杜鹃叶片转录组测序,组装、聚类去冗余后获得74 092条Unigenes,利用Perl操作平台下的MISA软件共搜索到23 192个SSR位点,包含SSR的一致序列出现频率为31.30%,分布密度为0.334 SSR/kb,平均每3 kb出现1个SSR位点。与大多数双子叶植物如杜仲(Eucommia ulmoides Oliver)[8](0.038 SSR/kb)、碧桃(Prunus persica cv. duplex Rehd.)[9](0.287 SSR/kb)和短丝木犀(Osmanthus serrulatus Rehd.)[10](0.183 SSR/kb)的EST-SSR相比,长梗杜鹃转录组中SSR的分布密度较高;但低于高粱(Sorghum bicolor(L.) Moench)(0.646 SSR/kb)、水稻(Oryza sativa L.)(0.739 SSR/kb)等单子叶植物[11],这可能是二者的进化因素不同使得双子叶植物的SSR分布偏低[12],另外出现这种差异也可能与物种间SSR的分布、含有SSR基因的表达丰度、搜索的序列来源、搜索软件的选择以及搜索的标准等不一致有关。总体而言,长梗杜鹃转录组中SSR数量比较丰富。

      在获得的长梗杜鹃转录组所有SSR中,二碱基重复为最主要重复类型,占所有SSR的69.52%,其次是三碱基重复,占15.07%,这与许多物种以二、三碱基重复类型居多一致[13-15]。袁阳阳等[16]在莕菜(Nymphoidespeltata(Gmel.) O. Kuntze)转录组发现的12 319个EST-SSR位点中,二碱基和三碱基重复单元是主导类型,分别占总SSR的57.31%和30.87%;李美芹等[17]从NCBI公共数据库现有杜鹃花相关EST中获得的435个SSR序列也以二、三碱基重复为主。一般认为,低级重复单元的大量存在暗示着该物种进化水平较高,而高级重复单元出现频率高的物种具有较短的进化时间或较低的变异频率[18, 19]。长梗杜鹃中单、二和三碱基重复类型共占总SSR的96.77%,可能预示着其具有较高的变异频率或较长的进化历史,这或许在一定程度上支持了方瑞征和闵天禄[20]所得结论,杜鹃属植物起源于距今约6 700万年至13 700万年中生代的白垩纪,具有悠久的进化历史。相比较而言,4~6 bp重复类型较少,且随着重复单元碱基数的增加,SSR出现频率、SSR含量以及分布密度随之升高,即六碱基SSR类型较多。在云南松(Pinus yunnanensis Franch.)[21]转录组SSR分布特征研究中,也表现为六碱基较四、五碱基多。这可能与密码子以三碱基为一个单元有关,造成了三碱基位移[22]

      SSR分布在不同物种间存在较大差异,且物种本身碱基组成也是选择的结果。在长梗杜鹃单碱基重复类型中,A/T基元占绝大多数,四、五、六碱基中AAAT/ATTT、AAAAT/ATTTT和AAAAAT/ATTTTT基元含量也相对较高,表现出一定的A/T优势,这可能与碱基所含的能量有关[23]。但是主要重复类型二、三碱基的优势重复基元是AG/CT和AAG/CTT,分别占SSR总数的62.01%和4.23%,与蜡梅(Chimonanthus praecox (Linn.) Link)[24]、碧桃[9]、短丝木犀[10]等植物转录组SSR分布的研究结果一致。在三碱基重复中,AAG/CTT、AGG/CCT和ACC/GGT基元所占比例最高,与王书珍等[25]报道的杜鹃花EST-SSR序列三碱基中的优势基元AAG、ACC、AGA比较相似,许玉兰等[14]对多数物种的统计也表明三碱基中AAG、AGC和AGG较多,这些较多的重复基元可能在EST序列中较为普遍,也可能是优势的蛋白或DNA家族[26]。此外,长梗杜鹃中还发现了44个在植物转录组二碱基重复中比较罕见的CG/CG和240个在双子叶植物中分布较少的CCG/CGG重复基元,其含量远高于大多数植物,如甘蓝(Brassica oleracea L.)[27](1个CG)、蜡梅[24](6个CG)、杜仲[8](1个CG)和短丝木犀[12](13个CG、43个CCG)等,较多的CG和CCG重复基元可能与某些特定的功能相关,如抗逆性、转录调控和信号转导等[28]。也进一步证明所得长梗杜鹃转录组SSR具有较高的特异性。

      许多研究表明三碱基重复SSR是目前为止基因编码区中发现最多的SSR类型[29, 30]。长梗杜鹃也不例外,结合SSR和CDS的位置信息,对SSR的分布区间进行统计,发现长梗杜鹃转录组SSR序列主要分布在非编码区,编码区SSR出现频率仅为非编码区的11/50,且编码区中三碱基SSR显著富集,占总检测量的48.57%,而非编码区以二碱基重复较多。这可能是密码子选择作用的结果,由于三碱基重复单元重复次数的变化对基因读码框和表达产物的影响较小,从而使其在编码区的容受性优于其他类型。这一现象也说明三碱基重复SSR富集是基因编码区SSR在基因组中得以保存的重要机制[31]。Reddy等[32]报道了人类基因组研究已经发现三碱基重复SSR与某些疾病的发生相关;将长梗杜鹃转录组测序所得全部Unigenes映射到KEGG代谢库,发现了176条与人类疾病相关的Unigenes,这是否与基因编码区富集的三碱基重复有关,对长梗杜鹃的生长发育又有什么意义仍有待进一步研究。

      SSR位点多态性主要原因是基元重复数和碱基数不同而形成的序列长度多态性[33],一般重复次数越多,变异性越大,其多态性潜力越高。长梗杜鹃SSR重复次数波动于4~117次,以4~10次重复较多,其次是11~20次;其中单碱基因容易发生错配不考虑在内,其余的碱基重复类型重复次数也集中于4~36次的。从片段长度来看,当SSR长度≥20 bp时多态性较高,在12~20 bp之间多态性中等,<12 bp时多态性极低[34],本研究在筛选过程中已经将<12 bp的低多态SSR过滤掉,最终发现长梗杜鹃SSR序列长度变化范围是12~117 bp之间,平均长度为21.23 bp,其中≥20 bp的高多态重复序列占42.90%,其比例高于云南松[21](14.76%)、碧桃[9](12.13%)、短丝木犀[10](13.47%)等大多数植物,由此推测长梗杜鹃转录组挖掘出的23 192个SSR位点大部分具有高多态性潜能。通过SPSS软件对SSR发生频率与重复片段长度进行Pearson相关性分析,发现二者显著负相关,相关系数为-0.566。在长梗杜鹃不同长度重复单元SSR长度变异分析中,二碱基重复SSR长度变异程度较高,有40种不同SSR变化长度,即二碱基类型获得或失去重复基元的活跃程度较高;其次是单碱基(28种),而五碱基最低(仅4种),且各重复类型均表现为SSR长度越长,出现的频率越低。表明由短重复单元组成的SSR比由长重复单元组成的SSR可能具有更丰富的多态性。

    • 本研究通过Perl操作平台下的MISA软件对长梗杜鹃转录组中SSR序列进行查找,共搜索到23 192个SSR位点,对其分布频率、重复单元类型、重复基元碱基组成、在编码区中的分布特征、重复次数和序列长度分布及变异情况进行分析,得出大多数位点具有高多态性潜能,用于遗传分析的潜力很大,为长梗杜鹃SSR分子标记的大规模开发提供了重要的信息资源和数据保障。尤其是分布于编码区的序列,可能与某一特定功能相关联,有助于长梗杜鹃功能性SSR标记的开发,进而为该物种遗传多样性和遗传结构、遗传资源分类和进化以及分子标记辅助育种等方面的研究奠定基础。加之,EST-SSR具有较高的转移性,进一步开发的SSR标记有望用于杜鹃属植物及其它亲缘关系较近物种的研究中。

参考文献 (34)

目录

    /

    返回文章
    返回