资讯详情

临床外显子组测序分析中的那些坑(下)

临床外显子组测序分析中的坑(上)

临床外显子组测序分析中的坑(中)

还记得嵌合吗?

第二代测序数据分析中提到的另一个挑战是嵌合SNV和CNV的出现。嵌合SNV已被证明与许多疾病有关。事实上,大约3名癫痫相关神经发育障碍患者被检测到.5%的变异以嵌合形式存在。去除测序和分析假阳性位点的一种常见方法是消除变异突变丰度(VAF)低于预期的变异。然而,这种过滤也会去除嵌合SNV。例如,在怀孕33周的胎儿中,最初的筛选将是PIK3CA嵌合(约16%)变异被过滤为假阳性,这种致病变异(Chr3(GRCh37):g.178916854G>A NM_006218.4:c.241G>A p(Glu81Lys))导致心血管系统形态异常,这可以很好地解释胎儿的超声异常。通过靶向深度测序确认变异为嵌合,揭示了胎儿突变丰度的30%左右,而父母正常。

另一个挑战是,在未受影响的父母中,致病性变异也存在于嵌合状态中trio在分析过程中,我们主要关注显性基因中新突变的检测。因此,未受影响(嵌合)的父母的变异不会被标记为新头发。因此,仅在寻找新的突变时,就不会检测到嵌合亲本遗传的变异。

2530f1f55ee7c6f4b0ba94756964f47c.png

图3C

例如,我们最初错过了一个无义突变

TCF4 Chr18:g.53017619G>ANM_001083962.1:c.520C>TP(Arg174*),在筛选新的突变时,9%的母亲reads也包含这种变异(图33)C)。理想情况下,在进行新的突变分析时,应将此类突变作为一个单独的类别进行检测。或者,由于携带者父母的嵌合体水平较低,遗传变异可能被误解为偶然,从而错误估计父母的复发风险。一般而言,嵌合变异并不少见。据估计,与常染色体显性、常染色体隐性和X连疾病相关的基因嵌合变异发生在3.据估计,3%的个体中,亲本嵌合变异高达17%.5%。无论何时考虑与患者表型相关的潜在致病性变异,也值得考虑患者或父母嵌合的可能性。

5染色体考虑

如前所述,WES最初的目的是检测SNV(见DA-2),尽管可以WES数据分析CNV,但在解释变异时,一定要记住WES的局限性。例如,基于测序深度算法不检测非整倍体,因为它标准化了每个染色体的目标覆盖率。我们第一次错过了一个异二体X克综合征(XXY),因为当时我们实验室唯一使用的CNV未检测到分析工具。因为这是两条完全相同的X染色体,所以X染色体上到处都是纯合性(ROH)区域,正如你所期望的那样。这种异二聚体X Klinefelter是通过QF-PCR但是可以通过查看来分析WES数据中的Y/X检测覆盖率更快。

WES一个相对常见的副本数发现,一个染色体上的末端重复与另一个染色体上的末端不一致。这种组合是不平衡易位的明确指示,应进行常规核分析。染色体22在一名患有严重智力残疾、发育迟缓、言语和语言缺乏、肌肉张力减退和反流的患者中发现q13.3上的一个约265 kb末端缺失。因为22号染色体是近端有丝粒的染色体,所以在染色体的短臂上没有检测到。长臂和短臂上同一染色体末端的缺失表明有环状染色体。后续的核型分析显示,这确实是一个新的环状22号染色体(补充图S9)。由于有丝分裂期间的不稳定性是环状染色体的一个众所周知的特征,因此区分环状染色体和常规末端畸变至关重要。

随后的继发性畸变,如缺失区域的扩大,甚至影响染色体的单体性,可能会对受影响的个体产生相关的临床后果。22号染色体的风险与2型神经纤维瘤相关(NF2;OMIM#607379)强烈建议这些患者随后进行NF2终身常规筛选特征。

另一个例子来自智力障碍和癫痫患者WES数据发现在15q11.1q13.1上识别出约8.4 Mb终端重复。仅基于WES不清楚这种重复是由间质复制还是由额外的数字标记染色体引起的。在随后的核分析中,这一事件被证明是染色体等双丝粒标记(q13.1)(图3D),所以实际上是q11q13.区域四倍。由于四体15q它会导致许多非特异性特征,包括智力残疾、行为障碍、共济失调和癫痫(Finucane et al.,1993)。

这些例子表明,也有必要具备细胞遗传学的专业知识来解释WES。从微阵列数据中解释复制数变异的现有指南可用于外显子测序数据CNVs指导解释和后续随访。

图3D

6. 人群数据库中可能存在真正的致病变异

常见的过滤变异是外显子组数据筛选的重要步骤,公开可用数据库,如gnomAD,提供来自大群体队列的聚合变异信息有很大的帮助,消除了所有等位基因频率>1%或基于疾病频率和遗传模式的数据。当应用这种等位基因频率过滤时,临床相关变异可能被错误丢弃的原因有很多。

在智障患者中,我们检测到了它DNMT3A中的错义变异(c.2204A>G,p.(Tyr735Cys);NM_022552.5)。然而,在GnomAD在数据库中,这种变异也发生在11人身上,所以最初被认为是良性的。几项研究指出,由于克隆造血作用,健康个体可能会有特定的变异。因此,这些(体细胞)变异在比较数据库中的频率相对较高,可以在老年人中过度表达(图3)E)识别低变异等位基因分数。这些与克隆造血造血有关的基因是有用的。对替代组织进行有针对性的突变分析,有助于区分体质变异和体细胞变异。

图3E

多聚体拉伸也可能导致看似常见的致病性变异。基因中的多聚体延伸是容易发生聚合酶滑移的区域,可导致许多核苷酸的插入或缺失。这些变异可能以假阳性的形式出现在对照数据库中,但也可能是正在分析的测序数据中变异。有趣的例子是从PRRT2基因(NM_145239.3:c.641_649)删除或复制中9个核苷酸的均聚体片段中的单个胞嘧啶(补充图S10)。随后的c.649del和c.649dup(RS587771变异gnomAD等位基因频率分别为0.96%和0.47%。起初,我们不认为这些变异是可能的致病变异。然而,这两种变异都被认为是致病性的,因为它们会导致PRRT2基因移码,单倍体不足会导致癫痫、发作性运动诱发性运动障碍或两者兼而有之。

PRRT2相关疾病的外观率估计为60%或更高,这表明公共数据库中均聚物变化的高等位基因频率可能是由于测序误差。事实上,gnomAD有限的比较数据显示,突变等位基因在某些地区分布不均。因此,在报告之前,如果与病例有关,则必须通过另一项测试来确认此类变异。尽管使用频率数据库过滤变异是一种有用的方法,但它并不完美。同样,我们建议在数据解释过程中采取措施,强调已知的致病性变异,以避免遗漏更高频率的变异(GeneRanger软件已增加exception variant防止高频变异遗漏的功能)。

7.独特的临床特征可以促进正确的诊断

根据质量标准,数据分析有时会丢弃潜在的变异。在特定情况下,临床表型有助于区分变异的优先级,甚至建议在没有额外筛选步骤的情况下详细分析特定基因。肉眼检查测序数据后才发现PHOX2B新发18基因bp重复事件是由新生儿先天性中枢性通风不足综合征的独特表现引起的。这种变异没有被分析,可能是因为该区域富含GC重复序列中的测序读数对齐不良(图3F)。解释也是一个挑战,因为这地区在脊柱动物中并不保守(许多脊柱动物缺乏丙氨酸重复序列的重复拉伸代码),而且在gnomAD有许多重叠的缺失和重复事件。然而,这一位置的重复是中枢通风不足综合征复发的原因。

图3F

另一个明显的临床表型可能有助于识别高频亚型等位基因的例子VI-6)。我们分析了组分析了一个超声异常胎儿(眼球突出、下巴小、鼻前厚度、下肢内收),我们最初只检测到父亲的1q21.1.胎儿表型和血小板减少性桡骨缺失(TAR)临床诊断可能与综合征相匹配。该综合征通常由1q21.由于位于-21的5'-UTR亚型变异的组合是亚型变异gnomAD等位基因频率在数据库中>2%。放松频率过滤后,位置-21处的变异确实出现,起源于母体。

这些例子表明,患者的表格可能非常清楚地指向单个基因或少量基因。不仅要注意那些可能没有被注意的人call基因中的变异也应注意其他不太可能的变异,如可能影响剪切沉默或深度内含子变异(见VI-2)。因此,有专门的专家解释特定疾病组的临床外显子组测序数据是有益的,因为它允许他们更深入地了解基因原因、非典型变异类型或基因类型表的相关性。然而,正确诊断的能力始终取决于完整临床表格信息的可用性,最好是标准化格式。

8.表信息可能是误导性的

虽然表型信息对正确的基因检测至关重要,但它也可能阻碍基因诊断。引入基因实验室NGS技术(如WES和WGS),临床医生的诊断策略从表型优先转变为基因优先。我们可以清楚地看到,通过或多或少的无偏测序分析,已知疾病基因中的致病性变异也可以根据基因变异的位置或类型导致非常不同的临床表型。

在一个新生儿张力低、喂养问题、肌阵挛运动、眼阵挛、额叶隆起和棒状足的两岁儿童中检测到IL11RA基因复合复合致病性变异,并怀疑线粒体疾病的存在。然而,IL11RA颅缝骨病伴有牙齿异常(OMIM#614188)有关。在这种罕见的疾病中,没有张力过低或运动障碍。根据这一发现,CT扫描显示,孩子和一个3岁的兄弟姐妹的缝合线早期闭合。这个同胞随后也是证明是IL11RA变异的复合杂合子。因此,额叶隆起,以及可能的clubfeet,是颅缝骨病的早期指标,而神经系统特征可能由IL11RA变异解释,也可能不由IL11RA变异解释。

这种表型异质性当然不是什么新鲜事,但NGS的实施已经产生了许多最新的例子,例如致病性SRCAP和CREBBP变异分别导致Floating Harbor(OMIM#136140)和Rubinstein-Taybi(OMIM#613684)综合征。这些基因中的变异也被描述为导致一个单独的综合征实体,具体取决于新发功能丧失变异的位置。疾病进展、不完整的临床评估或表型异质性最初可能具有误导性。当检测到明显的致病性变异时,不应太简单将其视为“与表型不兼容”。

9.非孟德尔遗传

WES数据分析和解释的大多数标准过滤策略都基于经典的孟德尔遗传模式。虽然不完全外显率在遗传疾病中显然不是一种新现象,但它确实对从NGS数据中有效过滤大量变异构成了挑战。尤其是在处理患者(健康)父母三人组数据时,变异筛选可能会导致显性基因中的遗传杂合变异被排除,或父系起源的女性或X连锁隐性基因中杂合X连锁变异被拒绝。

对一名患有严重智力残疾、自闭症和癫痫症的年轻女性进行基于三人组的WES分析最初没有得到诊断。在与转诊临床医生讨论这一结果时,提到了PCDH19基因变异的可能性。PCDH19导致女性限制性X连锁障碍的癫痫性脑病-9(OMIM#300088)。对数据有针对性的检查确实揭示了PCDH19基因中的父系遗传致病性变异(ChrX(GRCh37):g.99662889G>a NM_001184880.1:c.707C>T p.Pro236Leu)。这种错义突变最初是由于健康的半合子父亲遗传,因此,我们应该意识到杂合子PCDH19变异很可能是从未受影响的半合子父亲那里遗传来的。

另一组具有挑战性的基因是那些具有亲本印记的基因,因此它们的表达取决于传递等位基因的亲本性别。目前已知大约有15种由印记位点引起描述良好的疾病,但除此之外,已知或预测有数百个基因会受到基因组印记的影响  (https://www.geneimprint.com/site/home)。在一名患有多种先天性异常的患者中,我们在IGF2基因中检测到一种新的移码变异,已知该变异存在印记,并且仅在父系等位基因上表达。由于无法从该患者的WES数据中提取基因组定相信息,我们无法确定IGF2变异存在于哪个等位基因上。

使用位于移码变体上游3.5 kb处的信息性SNP(rs368743181)结合基因组分阶段长读测序可以确认这种突变确实发生在父系等位基因上,因此可以被认为是致病的。如果这种变异不是新发突变,而是从健康的父母那里遗传下来的,那么识别这种变异将更具挑战性。

在这里,检测到每500-2000个体中就有1个发生单亲二体事件也很重要。在UPD的情况下,两条染色体都是从同一亲本遗传的,印迹基因的变异可能是疾病的原因(上海寻因提供trio WES分析UPD软件)。用已知疾病机制的信息注释基因对于解释WES数据非常有用。

10.注意异构体、假基因和基因拷贝

长期以来,我们对基因调控的概念一直被简化为单一启动子驱动基因转录,然后剪接前mRNA,删除所有内含子。如今,我们知道基因表达是以时间-组织-或发育阶段依赖的方式控制的。例如,剪接异构体可能缺少一个或多个外显子(自然外显子跳跃),具有额外的相关外显子,具有不同的翻译起始位点,或者基因可能具有多个启动子,导致不同异构体的出现。困难在于考虑哪种亚型与疾病有关,如何评估存在于仅一个子亚型中的变异,或者如果在不同亚型之间的阅读框不同,如何确保不丢失相关的“注释”。

例如,我们在一名发作性共济失调患者中确定了CACNA1A基因的Chr19(GRCh37):g.1333957G>变异。在五分之一的CACNA1A亚型中,这种变异是无义变异,NM_001127221.1:c.5569C>T.pArg1857*),而在其他四个中为内含子(补充图S11)。参与脊髓小脑性共济失调6型(OMIM#183086)的polyQ扩展由另外两种CACNA1A亚型(NM_001127222.2和NM_023035.3)编码,表明这两种亚型对正常的小脑功能至关重要。因此,事实上,无义变异仅存在于不编码多聚核糖核酸的亚型中,因此最初使我们认为这种变异可能是良性的。然而,Graves等人表明,该亚型使用了一个替代的外显子37A,而不是原始的外显子37B,并且该亚型中的无义变异会导致偶发性共济失调(OMIM#108500)。

或者因为整个亚型是多余的,因此亚型特异性变异可能表现为致病性或可能是良性的。最后,由于外显子跳过,一些异构体的阅读框架部分不同,因此很难正确注释其中的变异。对于在不同亚型中具有不同效果的变异,通常可以获得所有后果,但为了方便起见,最严重的后果是优先考虑的(例如,终止密码子丢失而非错义)。然而,这可能会对一些疾病产生影响,比如努南综合征,这些疾病具有功能获得或显性负效应机制,其中错义变异是致病性的,而无义变异不是。总的来说,重要的是确保在多个异构体中调用和注释变异,然后进行正确解释,以避免遗漏相关变异。

此外,基因拷贝和假基因在WES中造成了严重的问题,因为短序列读取的序列比对不明确,并且随后在这些区域中缺乏变异检出。出名的是完整疾病基因的拷贝,如SMN1、CYP21A2、PKD1、STRC或部分基因,如NEB基因内8个外显子的同源区。然而,其他变异可能会被call并显示异常的变异等位基因部分,即纯合子或杂合子中非常低的百分比时为杂合子,或者代表伪基因的假阳性调用,正如我们在STRC基因中发现的无义变异(补充图S12)。在基于现有资源的解释过程中,应该让人意识到这些基因,并使用独立技术验证这些变异的存在和合子性(如果已识别)。针对这一点,已经提出了不同的实验室方法,如基于NGS的拷贝数评估,辅以长程PCR碱基Sanger或MiSeq分析。此外,可以简单地从分析中排除片段重复。由于假基因的存在,如果基于患者表型检测已知致病性突变可能很困难,那么也应该以有针对性的方式对患者进行检测。

讨论

在这里,本文提供了10多年来从临床外显子组测序中获得的一些最重要的经验教训。作为一个诊断实验室对于质量和稳健性的关注并不鼓励持续的变化。但在这个快速发展的领域,跟上时代和创新已经成为一个必不可少的过程。通过提供我们在诊断工作流程开发过程中所犯错误的例子,我们希望我们不仅能够让人们意识到这些具体问题,而且能够让人们意识到诊断实验室中确实存在错误。对于患者和推荐临床医生了解临床外显子组测序的局限性至关重要。这些限制最好在诊断报告中提及。尽管所犯的一些错误要求我们用正确的诊断重新联系患者,但我们认为这在一定程度上是不可避免的,对犯错误的恐惧不应妨碍创新和改进,因为从长远来看,这对患者护理的危害比偶然的错误更大。

因此,重要的是要有一个全面的框架,以便在测序、数据分析和解释层面及时发现错误和问题。通过提供基准数据集,以及促进实验室之间的比较,有几项举措可以在这方面帮助实验室。从这些例子中观察到的一个有趣现象是,测序过程中出现的问题有时不是测序实验室自己发现的,而是分析数据的生物信息学家发现的。类似地,分子遗传学家在数据解释过程中经常会发现数据处理中的错误。因此,在参与临床外显子组测序过程的不同部分(即测序设施、生物信息学和数据解释)的成员之间建立常规反馈程序至关重要。

虽然这些例子似乎是非常罕见的例外,不太可能与日常病例有太大关联,但我们认为这些“例外”与罕见的遗传疾病相似,这些疾病可能个别罕见,但总体上相当常见。当然,在执行常规EXOME解释时,尽可能多地考虑所有罕见可能性所需的时间并不总是可行的。因此,应逐步优化数据分析、注释和程序,以增加此类临床相关基因变异的自动提取。类似地,验证、设置和执行WES的多种可能分析,如检测UPD、线粒体变异、重复扩增、,移动元件插入等。数据共享和再分析工作,可能会证明是有益的;并且可以利用大量样本进行分析,虽然这些分析不太可能诊断任何单个样本,但在一个大队列中将识别少数病例。

我们在这里提出的错误可能不会是我们最后的错误。从长远来看,我们努力从错误中学习,以改进诊断方法,我们希望其他人也能从我们的错误中学习。

译者介绍

往期精品(点击图片直达文字对应教程)

机器学习

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

标签: 韩国cas传感器型号smn

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台