资讯详情

使用纳米孔测序数据进行16S-DNA条形码研究的计算方法[综述]

摘要

通过对16S核糖体RNA(16S rRNA)细菌多样性已广泛应用于环境微生物学中,特别是自高通量测序技术问世以来。这些技术带来的另一项创新是开发新策略来管理和研究大量的测序数据。这种情况刺激了生物信息学领域的快速扩张,并发布了主要用于使用的新工具Illumina下游分析和解释技术生成的测序数据。近年来,第三代测序技术已经开发出来,并与之前的测序策略并行互补应用。特别是牛津纳米孔技术公司(ONT)分子生态学家推出了纳米孔测序技术。纳米孔技术价格低廉,便携性好,测序通量快。这项强大的技术最近通过了16S rRNA分析测试,显示出令人鼓舞的结果。但与以往的技术相比,。由于其显著的特点,研究人员最近开始在16岁S rRNA测序研究是正确的MinION评估其适用性,并取得了显罗的结果。在这里,我们评估了微生物组应用的研究MinION总结了技术的最新进展。

1.介绍

微生物群落的功能、相互作用和动力学被认为对生态平衡和生命的存在至关重要。这一事实[3]对在分类学背景下提供精确的微生物世界规模和研究微生物多样性提出了历史限制。

由于分子系统发育的基础是在1960年代和70年代建立的,所以16S rRNA原核生物分类研究[4]、[5]已广泛应用于基因。,该分子的编码基因具有一些独特的特点,适用于分类分析:1),[6]发现于所有原核生物和古细菌生物中;2)(?1500 bp)和[5],3)16S rRNA基因中[7],[8],4)物种。可用于设计基因中识别的不同高变区(共9个,V1-V9)侧翼通用引物[9]。另一方面,使用16S rRNA细菌鉴定存在一些细菌鉴定性,包括。为分析选择的可变区[10]取决于序列。

直到1990年代后期,仅在分类学背景下才应用16S rRNA物种[6]、[11]是根据从纯净(多为临床)培养物中获得的单个细菌来定义的。然而,1997年,Pace等人。首次使用[12]Sanger测序采用16S rRNA基因序列首次描述了实验室中不需要培养的微生物群落的组成。这项工作导致了研究微生物群落的通用方法。如今,对16S rRNA进行序列分析仍是研究微生物多样性的金标准,可对临床和环境样品中存在的原核生物进行准确的分类学分析[11]。,[12]。

。然而,这种方法需要分析单个序列,这意味着克隆步骤是研究样品的关键先决条件(图1a)。因此,最多可生成约1000个碱基序列。(表1),。因此,就时间和成本而言,使用Sanger对细菌多样性的综合评价已成为一个严峻的挑战。

[外链图片存储失败,源站可能有防盗链机制,建议保存图片直接上传(img-Wnwlw7xc-1586582356836)(https://ars.els-cdn.com/content/image/1-s2.0-S2001037019303745-gr1.jpg)]

图1。最常用的各代测序技术DNA条形码测序策略。(a)第一代测序(Sanger)。在这种方法下,经典的条形码是通过环境编码的DNA样品中全长16S rRNA基因来完成。一旦获得扩增子,将进行16S扩增子克隆,将序列添加到载体中,然后转化为宿主。最后,通过Sanger该方法提取和纯化质粒,并提取和纯化16S rRNA插入片段进行测序。(b)第二代测序(Illumina)。从环境DNA样品中,进行de 16S rRNA基因特定区域PCR扩展;根据研究范围,可扩展16S一两个基因区域,其中最常用的区域是V1-V2和V3-V4.配对的终端文库通常用于使用这些区域(DNA与末端连接有接头的片段和末端DNA制备片段混合物,并准备测序),测序接头(连接核酸分子的外源核酸)和索引(唯一DNA序列连接到测序库中的片段,允许在同一测序操作中对不同样品进行后验分选和鉴定)添加到16S扩增子极端,最终测序出长度约300 bp的文库在Illumina MiSeq平台上。(c)第三代测序(纳米孔)。(c)第三代测序(纳米孔)。这种最近开发的方法从环境中使用通用引物开始DNA扩增全长16S rRNA基因。同时,在同一时间PCR在反应中,在扩增子中化的指标添加到扩增子中;一旦扩增子被纯化,文库的制备过程包括16S蛋白质(文库制备10分钟)添加到扩增子的特定标记区域;最后,样品的直接测序是MinION在测序仪上进行。

表1。使用DNA16条形码法S可用测序平台对宏基因组分析的比较。

Sequencing Platform Read Length (bp) Accuracy Output Sequencing Chemistry Run Time Advantages in Metabarcoding approaches
Sanger 400–900 99.999% 1.9–84 Kb Dideoxy chain termination 20 min ?3 h Long read length, high quality
Illumina MiSeq 75–300 99.9% 13.2–20 Gb Sequencing by Synthesis 21–56 h High Throughput, read quality
MinION >200,000 ~95% ~50 Gb Single Sequencing real time-long reads 1–48 h High Throughput, Long read length, portability
PacBio 10–15 Kb 99.999 5–10 Gb Single Sequencing real time-long reads 4 h Long read length and quality

。这些新技术提供的特点是高输出和数据准确性,以及消除繁琐和耗时的步骤,如Sanger克隆需要测序DNA片段与测序产品的电泳分离,使得在短时间内产生大量的测序数据成为可能。不同创高通量测序的不同公司中,Illumina在市场上处于领先地位,已成为微生物生态学研究中最常用的标准测序技术[13]和[14]。该技术生成的序列中的常见元素是(从50 bp到300 bp),(从2 Gb到750 Gb),(大约从每Gb 从40美元开始,译者注应该是Miseq价格)[15](表1)。

但是,由于Illumina和Sanger序列长度的技术差异,单独使用Illumina无法获得16个测序S rNA基因的全长序列。为了克服这一限制,通常使用Illumina进行16S基因分析仅限于16S rRNA的特定可变区,而不是完整的基因(图 1b)。但是,就输出,准确性和速度而言,Illumina测序的显蓍特征使这项技术成为了迄今为止基于16S分析的几乎所有最重要研究的技术,包括人类微生物组计划[16],地球微生物组计划[17]和极端微生物组计划[18]。

1.1 当前在16S宏基因组学研究中应用的分析方法

。这种情况刺激了应用于微生物生态学研究的生物信息学领域的迅速扩展,主要是因为发布了用于下游分析和测序数据解释的新工具。如今,有大量强大的工具可用于有效集成不同类型的数据[15],[16],[17]。

在这种情况下,目前有几种用于处理扩增子测序数据的生物信息学程序和工具,其中大多数设计用于16S rRNA基因的V3和V4可变区。(图2)。因此,序列的生物分类分配是关键步骤,也是微生物多样性分析中最有用的元素。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0KzUWfuC-1586582356840)(https://ars.els-cdn.com/content/image/1-s2.0-S2001037019303745-gr2.jpg)]

图2 经典流程MOTHUR [21]和QIIME2 [20]及其用于16S rRNA扩增子分析的完整工作流程,“通用过程”流程包含两个流程中的所有通用步骤。

图2显示了16S rRNA Illumina序列最常规工作流程的详细流程。尽管不同程序包之间存在差异,但是工作流中的主要组成部分是模拟的,并且共享一个通用过程,包括:(图3)。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qqsjeyaQ-1586582356842)(https://ars.els-cdn.com/content/image/1-s2.0-S2001037019303745-gr3.jpg)]

图3。推荐的MinION 16S rRNA扩增子管线用于细菌多样性分析。[90],[91],[92]

2 第三代测序技术

近年来,已经开发了第三代测序(TSG)技术,并已与前一种测序策略并行和互补地使用。这些新技术可以实时检测单个DNA分子,并产生非常长的读取(从1到100 kb)。2011年,太平洋生物科学公司(Pacific Biosciences)引入了首个TSG技术,称为单分子实时测序[19],[ 20]。新测序仪,特别是Sequel的最新版本,通过将读取长度和每次运行的吞吐量分别增加10倍和100倍,提高了输出。但是,尽管该新平台比以前的版本便宜两倍,但其成本效益仍低于Illumina,因此该平台在16S宏基因组学研究中的应用仍然很少。此外,错误率与第一个PacBio版本相同(〜13%)[25],并且输出仍然低于Illumina。因此,[22],[23],[24](表1)。

2014年,牛津纳米孔技术(ONT)引入了[28]。纳米孔测序技术是在1980年代末开发的[29],尽管该测序技术于2012年首次成功使用[30]。该测序技术,因为长链的单链DNA穿过了蛋白质纳米孔,该蛋白质纳米孔稳定在耐电的聚合物膜中[25],[26],[ 27]。具体而言,核苷酸检测基于设置跨膜的电压,该电压由传感器组成,该传感器能够实时检测DNA分子通过时占据孔的核苷酸移动的离子电流变化。

运用这一技术,ONT于2014年发布了MinION平台,它具有一些显蓍的优势,例如化学[33]。MinION基本上是支持Flowcell的基础,该Flowcell负责直接测序单个DNA链,这些DNA链可在纳米尺寸的纳米孔中转移到半导体膜中[34]。。MinION纳米孔测序仪最显蓍的特点是Flowcell产生的序列长度和每次运行可产生的数据量。而且,MinION是一种小型测序设备,是当今市场上最小的测序设备,尺寸为10×3×2 cm,重量为87 g。一个特殊的特征是,测序过程不像Illumina和PacBio [35]那样利用次级信号,例如光或pH 。根据制造商的说法,。但是,R9.4.5Flowcell产生的 reads质量仍低于Illumina的 reads,后者的准确性为99.9%(表1)。)。纳米孔reads的[32]。

ONT平台的另一个显蓍特点是可以,与Illumina平台相比,这。此外,与目前用于16S宏基因组学研究的其他测序平台相比,(表1)。所有这些特性使MinION成为许多实验室可访问的技术,从而在整个科学界迅速扩展了该技术的使用范围。在此背景下,ONT开发的一个显蓍的原始功能就是“纳米孔社区”,它是ONT网站的一部分。这种“社区”提供了一个公共空间,用户可以在其中获得有关设备性能,方法和生物信息学分析的帮助和反馈。重要的是要注意,还有其他的ONT平台可以产生比MinION平台更多的具有相同特性的测序数据,例如GridION(100 Gb)和PromethION(6 Tb)[30]。

3 纳米孔测序技术在16S rRNA研究中的潜力

纳米孔测序为16S rRNADNA条形码研究带来了第一代和第二代测序的好处。(V1-V9区)。全长16S rRNA序列最相关的优势之一是,由于在分析中考虑了16S rRNA基因的所有信息位点,因此它们[36]。通过Illumina测序,对16S rRNA进行测序的常规策略使用高变区V1-V2和/或V3-V4[ 37],并且仅基于大约〜300 bp的16S rRNA基因的这些短可变区来分配分类法。在大多数情况下,对这些短区域的分析提供了有限的分类学分辨率,无法可靠地区分超过属水平的序列[31],[32]。此外,这些区域的选择将直接影响分类学分配的特异性。例如,在宿主相关研究中,V4区域更好地代表了整个细菌的多样性,而V1-V2对皮肤微生物群的研究更具特异性。此外,当使用16S rRNA基因的不同部分时,不同细菌类别的生物分类学分辨率也不同[40]。相比之下,[34]。,[31],[30]。ONT的另一个优点是,可以在较短的运行时间(1-48小时)内以可承受的价格(每个样本约50美元)生成数据。表1。

如前所述,MinION是当今最受欢迎的ONT平台之一,已被广泛用于基因组学和转录组学研究[35],[36],[37],[38],[39],[40],并且在过去两年中,有关微生物多样性的研究正在迅速发展。但是,尽管在微生物生态学研究中使用ONT技术具有明显的好处,但是仍然有一些因素限制了在微生物多样性的常规分析中采用这些新方法。

3.1 纳米孔16S宏基因组学研究

使用纳米孔测序来描述微生物多样性的研究通常采用与以前的研究类似的方法,这些研究大多基于Illumina,无论纳米孔产生全长16S序列的事实如何。使用Nanopore,可以使用通用引物(27F和1493R)通过PCR扩增全长16S rRNA基因。通过在扩增子序列中添加接头来制备文库,并使用握在MinION设备上的Flowcell直接对样品进行测序(图 1c)。

作者试图通过使用两个基于PCR步骤的协议来标准化不同的基于16S的扩增子条形码协议,第一个过程是扩增16S rRNA基因,第二个过程是添加用于16S扩增子测序的接头[48],[49]。另一种策略是基于使用ONT 1D2化学文库制备方法,其中两条DNA链都已测序(类似于Illumina的配对末端测序),通过对目标DNA的两条链进行测序来提高读取质量[50]。尽管在已发表的研究中使用纳米孔测序对16S rRNA-DNA条形码进行了不同的研究,但牛津纳米孔技术公司的16S条形码试剂盒已被广泛使用,并获得了令人满意的结果[41],[42],[43],[44]。

与样品制备相似,引入的用于分析纳米孔16S扩增子的方法学包括多种生物信息学工具。尽管如此,尽管使用了不同的工具,但所有已发表研究的中心过程都是基于分类分配的策略的应用[44],[43],[45],[47]。

3.2 使用纳米孔16S序列进行分类分配

与Illumina相比,。使用最广泛的工具是基于云的数据分析服务(ONT),它提供了许多用于纳米孔16S数据的端到端分析的工作流程:16S分类分类,条形码协议和读取质量过滤器。对于分类分配,将FASTQ文件上载到EPI2ME平台的FASTQ 16S协议上,按质量对reads进行过滤,然后使用(ONT)。但是,此工具不是公开可用的,只有ONT客户可以通过网络平台访问此工具。此外,优质的过滤器,适配器修整,缺省情况下,已经配置好了序列号或比对参数(例如同一性和序列的覆盖范围)的设置,并且。此外,带有分类分配结果的其他工具不兼容。

Cusco [48]使用工具Minimap将映射方法应用于分类学分配,并且能够确定细菌分离株,模拟群落和复杂皮肤样品在属和种水平上的分类学组成。但是,研究表明需要更精确的生物信息学方案以实现更可靠的结果。这项研究的另一个重要结果是,通过(例如rrn操纵子)(16S rRNA-ITS-23S rRNA; 4500 bp),可以提高分类学的准确性。Kai等使用 [54]。[52]报告了物种一级的细菌鉴定,其中。Hardegen等人进行的后续研究。[49]使用了基于的分类,得出的结论是,它们的流程可能适合纳米孔测序中16S rRNA reads的分类分配。爱德华兹等。[51]使用 [55]进行分类分配,并在。Ma等人执行了另一种方法。[50],他们使用分类器[56]进行了分类,并在纯培养中报告了在。Mitsuhashi等。[57]使用Centrifuge分析了脓胸患者的模拟胸腔积液[58]和BLAST进行分类分析,使用Centrifuge成功鉴定了模拟社区中存在的所有物种[58]。特纳等。[53]描述了使用[58]进行分类的新入侵奈美球菌属的微生物组,确定了与微生物组相关的2054种。

[50],[41],[44],[43]和[45]。关于两种生物信息学工具的特性,Centrifuge[58]当使用包含多个高度相似的参考基因组的数据库(例如细菌物种的不同菌株)的数据库时,它能够准确识别 reads。此外,Centrifuge的工作原理是。另一方面,Minimap2 [54]是一种通用的比对程序,可将长的DNA序列与参考基因组(例如人,真菌,细菌或病毒基因组)作图。Minimap2比长读作图工具或cDNA作图工具快30倍以上,并且具有更高的准确性,超过了专门用于单一类型比对的大多数比对器。尽管这两种工具均已成功应用于纳米孔数据的分析,但

其他工具,例如BLASTN,MEGABLAST和LASTZ [52],[50]也已用于使用Illumina测序的DNA条形码研究中的分类分配。然而,重要的是要强调,由于纳米孔和Illumina reads之间的差异,即。在这种情况下,Magi等[60],[61]已经评估了比对和作图工具,并得出结论,由于这些长序列的大小,高数量和不均匀的错误特征,将纳米孔 reads与数据库作图或比对特别具有挑战性。这项研究还发现,诸如[53],[54],[14],[46]。此外,Centrifuge已被纳入新工具MINDS [62]中,用于分析纳米孔序列。

[63],[64]。迄今为止,很少有可用于微生物鉴定的精选数据库-SILVA [65],Greengenes [66],RDP [56]和NCBI [67]最常用于16S研究。SILVA数据库包含细菌,古细菌和Eukarya领域的生物分类信息。它主要基于小亚基rRNA的系统发育(原核生物为16S,真核生物为18S)[64]。它们的分类学层次和等级是根据Bergey的分类学纲要,具有命名法的原核生物名称列表(LPSN)和人工管理建立的[68]。Greengenes是最受欢迎和使用最广泛的数据库,因为它是QIIME流程中的默认数据库。它提供了基于无嵌合,一致的多个序列比对推断的系统发育树的细菌和古细菌分类法,但自2013年5月以来未进行过更新。NCBI分类法包含与提交NCBI序列数据库相关的所有生物的名称。它是根据当前的系统文献手动整理的,使用了150多种资源。它包含一些代表不同生物的重复名称。每个节点都有一个科学名称,并且可能为其分配了一些同义词。重要的是要注意,这[57],[51],[59],[53],[52]。RDP数据库基于细菌,古细菌和真菌(真核生物)的16S rRNA序列。它包含可从国际核苷酸序列数据库合作组织(INSDC)数据库获得的16S rRNA序列。另一个新的数据库是EzBiocloud,它是一个物种级别的分辨率数据库,由61700种/系统型组成,其中包括13132种/系统型,具有有效的名称,以及62362个全基因组装配体,在分类上按属,种和方式分类。亚种水平[69]。

一些作者使用这些数据库评估了分类分配的差异,[64]并且显示出NCBI在序列数量上是更大的,其次是SILVA,RDP和Greengenes。此外,他们发现Silva与NCBI拥有最多的分类单位,而GreenGenes的数据库则较少。此外,,而SILVA仅允许属作为最低等级。**重要的是,NCBI数据库并非针对所有微生物组进行管理,并且可能包含16S序列的重复副本,由于某些细菌类的数量过多,这可能会由于高估而导致分类分配上的偏差。**这方面的一个示例是NCBI存储库提供的属于病原细菌组的大量可用序列。与临床菌株相比,属于极端环境的序列在NCBI数据库中仍然很稀少,并且在进行分类分配时可能不足。Park&Won 2018提供了更详细的数据库选择指南[68]。

选择工具的最后考虑因素是输出数据的格式,因为它们不能与应用于下游分析的其他生物信息学工具兼容。这尤其与那些执行统计测试,生成图和对样本中识别出的生物分类图进行比较分析的工具有关。表2总结了使用纳米孔数据进行16S宏基因组学研究的可用工具的不同选择和应用的详细说明。

表2 DNA条形码研究中用于分析Nanopore 16S数据的不同工具。

Analysis approach Data processes included Tools used for analysis Taxonomic Data Base Reference
Profiling of bacterial communities Basecalling, Demultiplexing, adapters and barcode trimming, chimera removal, taxonomic assignment Albacore V2.3.1, Porechop, Yacrd 0.3, Minimap, EPI2ME NCBI and rrn database [48]
In field metagenome bacterial community analysis Basecalling, Demultiplexing, Taxonomic assignment, diversity analysis Albacore v1.10, SiINTAX, usearch v10.0.240 Ribosomal Database Project [51]
Rapid bacterial pathogens identification Basecalling, human reads removal, bacterial reads taxonomic assignment Albacore 2.2.4, TanTan v13, Minimap2, R GenomeSync database, NCBI database [52]
Monitoring microbial of an anaerobic digestion system Basecalling, Demultiplexing, adapter trimming, Taxonomic assignment Metrichor, EPI2ME, poRe, Porechop, QIIME, BLAST, GreenGenes database [49]
Microbiome characterization Basecalling, OTU picking, taxonomy assignment. Metrichor v2.42.2, Poretools, QIIME 1.9. RDP classifier, BLASTn GreenGenes database [50]
Microbiome amplicon sequencing workflow Bassecalling, alignment, re-orientation of reads, de-novo clustering, chimera removal, Fast5-to-fastq, seqtk, INC-Seq, blastn, Graphmap, POA, chopSeq, nanoClust, R No taxonomic assignment [81]

3.3 限制超越纳米孔测序数据进行分类分配

。完整的16S基因序列提供的更深的分类学分辨率可以比其他方法[68],[69]和[70]达到更高的特异性,达到属和种的水平。这种方法已成功应用于工业过程的临床,法医和质量控制中,由于其与医学/人类的相关性,许多待鉴定的微生物在数据库中得到了很好的表示[29],[61]。

但是,在以前没有研究过微生物群落的其他生态环境中,分类学分配并不总是最好的方法。在这种情况下,生活在这些生境中的最具代表性的微生物可能仍未开发,因此它们的基因组数据不在数据库中,这使得无法对许多 reads进行分类学鉴定。由于数据库主要由16S rRNA基因的片段组成,并且全长序列的存在通常是一个例外,而不是常规,这种情况可能对纳米孔数据更为严峻,这限制了基于完整序列的可靠分类学鉴定基因。另一方面,。在这种情况下,如第2节所述,为克服这些局限性以及由直接分类法读取的 reads引起的偏差,通常将诸如操作分类学单元(OTU)拾取和/或去噪管线之类的方法用于16S Illumina数据分析[71],[72],[73] (表3)。

表3 用于16S rRNADNA条形码纳米孔数据的生物信息学工具。

Process Tool Input file Programming languages Available from Reference
Basecalling Albacore Fast5 Python https://nanoporetech.com/ ONT
Guppy Fast5 Python https://nanoporetech.com/ ONT
Deep Nano fast5 Python https://bitbucket.org/vboza/deepnano [77]
Chiron Fast5 Python https://github.com/haotianteng/Chiron [78]
Sequencing report NanoPlot fastq, fasta, sequencing_summary (Albacore or guppy basecaller) Python https://github.com/wdecoster/NanoPlot [82]
pOre fastq, fasta R https://sourceforge.net/projects/rpore/files/ [83]
pauvre fastq https://github.com/conchoecia/pauvre Github
poretools fastq, fast5 Python https://github.com/arq5x/poretools [84]
Demultiplexing Albacore Fast5 Python https://nanoporetech.com/ ONT
qcat fastq Python https://github.com/nanoporetech/qcat Github
porechop fastq, fasta C++, Python https://github.com/rrwick/Porechop Github
Filtering and trimming NanoFilt fastq Python https://github.com/wdecoster/nanofilt [82]
Filtlong fastq C++, Python https://github.com/rrwick/Filtlong Github
Porechop fastq C++, Python https://github.com/rrwick/Porechop Github
Taxonomic assignment Minimap2 fastq, fasta C++, Python https://github.com/lh3/minimap2 [54]
Wimp fastq Cloud-based https://nanoporetech.com/ ONT
Centrifuge fastq, fasta g++ https://ccb.jhu.edu/software/centrifuge [58]
LASTZ fastq, fasta g++, python https://github.com/lastz/lastz Github
Clustering NanoClust USEARCH/VSEARCH format Python https://github.com/umerijaz/nanopore/blob/master/nanoCLUST.py [81]
CARNAC-LR paf C++, Python https://github.com/kamimrcht/CARNAC-LR [80]
Data exploration Pavian Kraken and MetaPhlan formats R https://github.com/fbreitwieser/pavian [85]
PHINCH biom Cloud-based https://github.com/PitchInteractiveInc/Phinch [86]
Krona Krona format https://github.com/marbl/Krona/wiki [87]
MEGAN6 OTU table http://ab.inf.uni-tuebingen.de/software/megan6/ [88]
Microbiome Analyst OTU table, taxonomy table Cloud-based https://www.microbiomeanalyst.ca/ [89]

为了执行分类分配和多样性分析,需要执行这些分析(图3)。如前所述,。通常通过纳米孔测序引入的错误数量(主要是插入/缺失)代表了在reads之间发现相似性的相当大的限制。此外,由于reads质量差而导致的人为序列差异,即使它们来自单一生物体,也可能产生以下效果:将每个 reads识别为单个序列变异体,从而高估了细菌多样性[71]。因此,使用不适当的OTU聚类工具或使用ASV方法对Nanopore reads进行分析可能会提供样品微生物多样性的完全不正确的图片,显示出具有非常不同序列的数据集。

因此,。然而,当应用最流行的聚类算法[74],例如UCLUST [75],VSEARCH [55]或CDHIT [76]时,可以发现与使用ASV识别的局限相似的局限性。在最近的研究中评估了使用流行的流程QIIME分析纳米孔16S序列的情况[50],表明该工具在OTU选择步骤中失败,这证实了上述将Illumina设计的工具应用于纳米孔数据的问题。通过执行封闭或开放参考OTU聚类,将仅对一小部分数据进行聚类,并且数据集的主要部分将由单例组成,这会导致对样本中细菌多样性的错误高估。

如前所述,。碱基检出是提高序列质量的最决定性的过程。纳米孔测序基于检测DNA链穿过纳米孔而产生的电流变化。理想情况下,每个基极都应具有特定的电流变化,称为事件。每个事件都通过当前的均值和方差以及事件持续时间进行总结[77],[51]。将该事件翻译成DNA序列称为碱基检出过程。ONT的原始basecallers使用隐马尔可夫模型(HMM)的基础上,使用机器学习然而当今新的策略在所有的现代纳米孔序列basecallers,如Guppy,DeepNano,和Chiron[77] ,[78] 。这种基于机器学习的碱基识别程序使用可以使用实际测序数据进行训练的神经网络。已经证明,[79]。因此,在纳米孔数据上使用这些新的机器学习方法对于改善序列质量至关重要,并且短期内可能会允许对纳米孔序列进行必要的改进,使其超出16S序列的分类分配范围。

。使用Illumina,从测序开始就定义了读取方向,因此序列都处于相同方向,这极大地促进了生物信息数据分析。测序数据的这种同质性对于比对和聚类至关重要,因为可以更轻松地比较 reads。另一方面,利用纳米孔的一维测序化学,可以将接头连接至DNA模板的一端或两端[71]DNA链以随机方向测序。因此,在碱基检出过程之后,数据集由彼此不互补的正向和反向序列组成。因此,

根据前面各节中讨论的有关使用工具及其在纳米孔序列上的应用的要点,在图3中提出了16S rRNA数据分析的工作流程。

4 。总结与展望

随着现代测序技术的出现,基于微生物16S rRNA基因分析的微生物生态学研究已成为DNA条形码研究中最流行的技术之一。迄今为止,大多数使用纳米孔序列进行的研究均报告了适用范围狭窄的流程,通常使用特定的生物信息学方案来检测特定病原体或目标细菌群或分类群,而无需考虑对样品中存在的整个微生物群落进行分析。但是,

。在这方面,为转录组创新簇开发的新工具可能代表了未来的探索选择[66],[67]。正如一些转录为基础的研究已经与纳米孔进行的,一个可能的替代方法是应用这些品种为工具 de-novo 对源自单个基因的所有转录本进行聚类,并应用相同的策略将样品中16S基因的所有变异聚类。此外,已经开发了其中一些工具来处理纳米孔序列的特定特征,因此,可以用作对来自纳米孔的16S序列实施特定聚类工具的第一种方法。

最后,自从新测序技术的发展以来,数据分析的许多挑战浮出水面。正确使用可用工具有助于扩大对纳米孔的16S数据的使用,以进行微生物成分的首次评估。对于Nanopore,根据该技术的消费者和最终用户的需求,工作主要集中在设计用于碱基识别,样本数据分离和物种分类分配的工具。当然,我们仍处于基因组革命的第一步,未来将为扩展这些技术和开发新一代强大的生物信息学工具带来新的可能性。有关身份,对齐方式,并且还必须评估每个数据集的数据库选择,特别是如果需要在物种级别进行识别的情况下。。纳米孔输出的所有这些发展将为生物信息学分析带来新的挑战,但也将带来革新微生物生态学研究的新机会。

标签: 450novo传感器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台