摘要
前段时间热心肠先生导读。《Nature子刊:高通量&分析微生物群落的新方法,无偏差。摘要:1.几十年来,细菌16S18真核生物S小亚核糖体RNA(SSU rRNA)它一直是研究微生物多样性和进化生物系统发育树构建的标准标记基因。然而,由于SSU rRNA 数据库中包含的全长SSU生态系统中的物种研究较多,SSU引物具有偏好性和偏好性PCR嵌合体的产生会导致研究中样品的实际多样性偏差。2. 本文中作者通过结合poly(A)的尾巴以及SSU高通量的反转录序列合成了高质量的全长SSU序列。该方法分析了7个环境样本的微生物群落组成,获得了100多万个SSU rRNA序列,涵盖细菌、古细菌和真核生物,原始错误率约0.17%,鸟枪法RNA与无明显偏差的测序相比;3. 对比现有SILVA数据库观察到大约一半的新多样性,其中包个和古菌Asgard Archaea 与门级相关的新谱系。4. 该方法可以数量级扩展现有的参考数据库,帮助完善全球微生物的分类和编目,以及生命树的建设。
前言
两个研究小组于1990年首次报告了从复杂环境样品中获得的16个S rRNA序列第一次打开了地球上未知微生物世界的大门。近些年来,SSU rRNA 短片段测序已成为大多数微生物生态学研究的骨干。然而,决定这些SSU rRNA 片段是否有用,很大程度上取决于构建高质量的片段SSU rRNA数据库。在过去的20年里,近200万条全长SSU上传到序列SILVA数据库中。这些序列只代表地球微生物多样性的一部分。据估计,地球上的微生物种多样性在100万到1000万之间。大多数全长SSU序列都是通过的PCR扩展,克隆,然后通过一代焦磷酸测序获得,但这种方法非常昂贵,不适用于大规模测序计划,如建造生命树。由于技术条件的限制,全长SSU (1,400–1,900 bp)片段不能通过低成本的第二代短读长高通量测序获得。三代单分子测序有超长读长的优点,但也有测序错误率高、通量低、价格贵等缺点。结合基于CCS Reads 自我校正的原始错误使三代长读长测序 (PacBio和Oxford Nanopore) 错误率为0.在16%的技术条件下实现16%S测序全长。此外,高质量的16S全长序列也可以通过分子标记Illumina短读长序列合成。虽然目前取得了很大进展,但长读长技术仍未能实现高通量,仍然依靠特定的引物来扩大SSU这也限制了我们发现新物种多样性的能力,特别是对。
实验设计
为了避免全长SSU作者结合分子标记合成长读长技术,优化了序列引物的偏好SSU的方法。全长的SSU从提取的总分子片段RNA通过选择和收集,并通过poly(A)尾巴和单链捆绑的方法转化为双链cDNA(图1a和附图1)。第一链和第二链cDNA合成过程中,单独的SSU特殊的分子片段标记了分子的两端。该标记的长序列可用于短读长测序的文库制备,使最终的单独序列可以根据原始临时标记分子进行标记。通过分子标记将短读长序列放在不同的位置bins中,通过de novo 手段可以单独使用bins组合成全长SSU序列。此外,作者还开发了一个基于引物的版本,直接显示了不使用引物的优点(附图2)。
二代测序全长SSU方法
图1. 全长SSR rRNA测序。为了方便手机阅读,我们将放大并详细解释每个子图。
(a) 如何从群体RNA准备全长测序。主要分为以下三个步骤:
凝胶电泳根据片段大小选择富集群RNA中SSU(SSU为RNA电泳图最大主峰,图中红色区域);
然后基于SSU共有的polyA来后成cDNA。这个特异的PolyT引物包括引物结果位点、唯一序列标签和引物结合位点三个额外的特殊序列结构;
用分子连接添加接头cDNA第二链合成所需的通用引物组合点;然后使用含有另一个引物组合点和唯一序列标签的引物组合cDNA的第二链。
让我们得到双链cDNA,它包括全长SSU,双端包括双引物结合位点和标签序列。
双链DNA扩展片段,再次使用电泳选择片段,去除(反转录)不完整SSU;
再次扩展,使每个唯一序列至少扩展1万次(至少215次);
扩展文库分为两部分,主要部分用于建立测序文库(Read-tag library),采用Illumina的标准Nextera tagmentation建立一小部分接头文库(Linked-tag library),先自我环化。
在添加接头之前,测序文库的片段化结果,PCR扩增,及高通量测序获取SSU序列;使用接头文库;inner引物扩展和测序可以用来确定每个序列片段的来源(传说中的)binning)。
使用接头文库来确定哪些测序结果来自同一分子;
同一分子的序列分箱(binning,在宏基因组中使用多年的技术终于反向应用于扩增子,高!
独立拼接分箱的序列SSU全长序列;
最后,切除接头,SSU筛选,和HMM细菌、古菌、真核生物等结构域预测方法对序列进行分类。
作者用于评估本研究方法的错误率和嵌合体数量Escherichia coli MG 1655, Bacillus subtilis str. 168和 Pseudomonas aeruginosa PAO1 测试了这些细菌的混合群落,这些细菌的16S rRNA 的拷贝数量4–10×,复制位置从0-19不等,高达1.种内序列变异度的3%。Illumina MiSeq Run 他们得到了10,575 条长度超过1200 bp的16S全长序列(Fig. 1b),平均的(Fig. 1c)。这个测序错误率和PCR反应时的Taq酶的错误率基本相同。。这种低错误率使研究人员能够使所有16S全长序列注释到它们的操纵器中,这也是我们方法优势的例子。有趣的是,是的B. subtilis三个操纵器(rrnI, rrnH and rrnG)不表达(通过RNA-seq验证)。这三个操纵器靠近基因组,并且是相同的promoter调控。为了在复杂的环境样杂环境样品中的应用,作者通过对7个不同环境的19个样品进行了多次展示MiSeq 和 HiSeq Run得到2.285和691的测序 条不基于引物RNA序列。一个人Miseq Run54,489 条1200 bp长度序列,一个Hiseq Run中能拿到541,676 条1200 bp长度序列。这其中SSU 占总数的24-76%,LSU绝大多数剩余序列。因为它是在测序前使用的SSU丰富的方法,结果LSU之前没想到序列的相对丰度这么高。 (图1a)。然而,这种现象以前也发现过,可能是因为LSU片段长度和SSU类似地,从而污染了丰富的序列。LSU片段最初是在提取过程中从降解的RNA因环境压力等因素导致原位降解,大部分来自细菌和低真核生物的裸露核糖体RNA中。
作者从7个不同的环境样本中获得了985和266条primer-free的全长16S序列。基于引物的扩展方法,我们还获得了477、055条16条S全长序列。为了获得高质量SSU rRNA的OTU,作者将所有序列与97%相似SILVA数据库(SILVA SSU Ref v. 128)比较。共44902个细菌OTU,去掉singleton 31,125之后OTU剩余。这些OTU目前已知的75个细菌门中有65个 (图2a, 附图4和附表4)。并且通过与SILVA比较数据库,发现大约有。发现新。
图2. 生命之树中覆盖率。
本研究中作者一共。通过聚类之后,共拿到了3,410个古菌的OTU,去掉singleton之后还剩2,197个古菌OTU。作者还获得了70,883,条真核生物18S序列,这些序列共聚类得到了415个非singleton的OTU。而且这些OTU数量都是经过保守估计获得的,因为18S rRNA的全长有将近2000bp,这个长度将是本技术测序长度的上限。这些全长的18S序列只占测序产生序列总数的55%,而对于细菌和古菌来说这一比例分别是90%和94%。作者还评估了在研究复杂微生物群落常用的SSU 的PCR引物的覆盖率,通过使用97%的相似度进行聚类。这将有助于估算使用SSU引物进行PCR扩增造成的多样性丢失的比例。正如作者所预料的,多样性丢失的比例和样品与引物的结合相关。例如,。
作者为了估计他们的非引物方法的物种偏好性,作者对三个用传统的RNA-seq测序的文库样品(沉积物,土壤和人类肠道)进行了测试,并将获得的数据和RNA-seq数据进行了对比。由于目前还没有非常完整的SSU数据库存在,所以潜在的偏好性是通过对比能匹配到SILVA数据库的RNA-seq序列数来估算的。对细菌来说,大约有3.7-6.6% 的RNA-seq获得的假定SSU不能匹配到非基于引物的测序方法中,稀释曲线显示这种多样性的不足主要是由于测序深度不足造成的。所以在这些环境样品中作者未检测到明显的引物偏好性。
在本研究中,作者通过序列相似度比对细菌和古菌数据库,在一些很具有代表性的门,比如Proteobacteria, Patescibacteria / Candidate Phyla Radiation (CPR)和古菌门 Asgard Archaea发现了大量的新的纲,目,科等分类单元。有趣的是,系统发育分析显示几个位于系统发育树底部的古菌分支并不与目前SILVA已知的任何古菌分支聚在一起,而是单独聚成几支(图3)。
图3. 古菌域中覆盖率。
这些。其实解决生命进化之间关系的问题最好还是用全基因组进行系统发育分析,作者提供的方法只是用SSU保守序列片段进行进化分析,此研究可以作为全面用基因组建树之前的先导研究。
这种不基于引物的测序方法尤其适用于古菌这种缺少合适的通用引物的类群。比如基于。
作者很难用本研究获得的序列去估算真核生物真实的多样性,这是由于这些序列的分歧和这个门的系统发生关系并不一致。另外,使用SSU序列作为这个门的系统发育界限的方法还在发展之中,尤其是对那些单细胞真核生物来说。例如土壤中获得的新物种大多在在原生动物Amoebozoa门,然而用传统的方法获得的Amoebozoa门的序列严重不足。由于。
。尽管有的序列不是全长,但是这些序列极大地提高了依靠rRNA的原位研究的探针数量,比如依靠探针的荧光原位杂交技术将更为便捷的被研究者所使用。由于Illumina的读长限制导致我们的技术测到的读长上限是2000 bp,作者也尝试用Nanopore取代Illumina,此方法虽然得到了更长的读长但很容易产生错误序列。作者发现用他们自己的方法能有效校正Nanopore的测序错误,所以未来用这种方法可能得到高质量的全长LSU序列。未来随着SSU和LSU数据库的扩增,研究者们也将开发出更好的能扩增整个rRNA区域的引物。
小结
本研究作者一共得到了超过160万条和SILVA数据库中SSU一样长度的SSU序列。本方法不仅现在可以用于ILLumina测序平台而且也适用于Nanopore长读长测序平台。作者也期待广大研究者使用他们的技术来快速增加SSU全长序列的数量。此方法还能够用于研究目前了解很少的,没有很好代表数据库的特殊环境样品。尤其是作者展望用该方法为那些目前缺少参考数据库的类群,比如古菌和单细胞真核生物提供一个覆盖度更高的方法。目前包括“真核生物参考数据库”等计划在内的一些国际计划也在努力扩充其数据库。最后,作者说他们的方法不仅可以用于扩充参考数据库,而且也对任何不超过2000 bp的标记基因进行多样性分析。
数据更为全面的SSU参考基因数据库可以更好的为一些特殊生态类型的研究提供帮助,比如帮助扩充人类口腔微生物数据库。高质量的生态系统或特定研究专一性的数据库将有助于研究者设计出更好的引物以及荧光探针。比如,设计精度更高的FISH荧光探针将有效提高原位单细胞生理研究的分辨率,而这对原位生态分化的研究非常重要。
写在后面
小编读完此文也对本文做点个人理解的解读:
做扩增子测序你一定纠结过到底测细菌的哪个区呢,V3+V4,或者V4+V5?细菌的16S全长一共有V1-V9九个区不管选一个区还是两个区,我们在进行物种注释时都无法将其准确注释到物种水平而仅仅是属水平。这也与目前最为广泛所有的Illumina技术特点有关,尽管其不断发展可以扩大其测序的通量,但其进行测序反应扩增的极限长度也不过单端300bp。目前Pacific 和Nanopore可以实现超长读长测序,但其测序的错误率还很高,只能用CCS Read(校正后正确率 > 99%) 方法进行自我校正。本文中提供的不经过PCR扩增的方法很好避免了引物偏好性对样品中实际微生物多样性造成的影响,而且通过加特殊标记实现了用Illumina平台进行超长序列测序的方法。此方法尤其适用于研究一些极端环境的微生物多样性,比如深海等等。而且随着人们用这种方法或者传统方法获得的SSU等全长序列越来越多,这将极大促进研究者们对地球上未知微生物的认识。完善整个生命之树,同时随着大家对古菌等特殊类群微生物认识越来越全面将更有助于研究者们设计出更好的,更为通用的引物或者探针。未来大家可以广泛的使用这些新设计的引物以及探针用于自己的研究。
就目前来说,本人觉得本文中此方法步骤过多,操作也很复杂,还是比较适用于构建一些重要的长片段生物条形码数据库的研究。大家如果仅仅是只想做多样性研究,而且一定要用全长的SSU片段或者SSU片段的话,可以考虑挑选一些偏好性小的覆盖物种比较全面的引物进行扩增后,直接用PacBio等三代仪器进行测序。之前有些文献报道了用三代Pacbio进行细菌16S全长测序。文章选取了27F和1492R引物对细菌16s全长进行了测序。作为微生物的重要组成部分真菌也开始了用三代测序仪进行宏基因组测序了。在第二代高通量测序中研究者通常只能针对ITS中的ITS1片段或者ITS2片段进行高通量测序。然而这只能给真菌的分类与系统发育分析提供很有限的物种鉴定和分类信息。
微生物物种水平的鉴定与功能注释是微生物学研究的核心目标之一。目前在真菌多样性研究上已经有将近10篇文章开始用全长 SSU+ITS, 或者 部分SSU + ITS + 部分LSU 进行三代测序研究 (Bender, 2016; Melo et al., 2017)。比如,Tedersoo在他的论文中通过三代测序全面对比了目前发表的一些真菌SSU, LSU以及ITS的通用引物,并且推荐好几对适用于真核生物的引物(Tedersoo et al., 2018)。
这些研究都是利用新技术做的一些探索性研究。未来随着三代测序技术更加成熟,当其测序错误降低,通量进一步提高,未来进行微生物多样性条形码研究肯定会用16S全长,ITS全长等大片段来取代现在的短条形码片段。
:
Karst, S. M., Dueholm, M. S., Mcilroy, S. J., Kirkegaard, R. H., Nielsen, P. H., & Albertsen, M. (2018). Retrieval of a million high-quality, full-length microbial 16s and 18s rrna gene sequences without primer bias. Nature Biotechnology.
Tedersoo, L., Toomingklunderud, A., & Anslan, S. (2018). Pacbio metabarcoding of fungi and other eukaryotes: errors, biases and perspectives. New Phytologist, 217(3), 1370-1385.
Schlaeppi, K., Bender, S. F., Mascher, F., Russo, G., Patrignani, A., & Camenzind, T., et al. (2016). High-resolution community profiling of arbuscular mycorrhizal fungi. New Phytologist, 212(3), 780-791.
Melo, C. D., Luna, S., Krüger, C., Walker, C., Mendonça, D., & Fonseca, H. M. A. C., et al. (2017). Communities of arbuscular mycorrhizal fungi under picconia azorica, in native forests of azores. Symbiosis, 1-12.
驯鹿短科普 https://www.xunludkp.com/papers/read/1080038166?kf=xread_daily
猜你喜欢
10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发NatureCell专刊肠道指挥大脑
系列教程:微生物组入门 Biostar 微生物组 宏基因组
专业技能:学术图表 高分文章 生信宝典 不可或缺的人
一文读懂:宏基因组 寄生虫益处 进化树
必备技能:提问 搜索 Endnote
文献阅读 热心肠 SemanticScholar Geenmedical
扩增子分析:图表解读 分析流程 统计绘图
16S功能预测 PICRUSt FAPROTAX Bugbase Tax4Fun
在线工具:16S预测培养基 生信绘图
科研经验:云笔记 云协作 公众号
编程模板: Shell R Perl
生物科普: 肠道细菌 人体上的生命生命大跃进 细胞暗战 人体奥秘
写在后面
为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》
学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”
点击阅读原文,跳转最新文章目录阅读