资讯详情

人群频率 | gnomAD数据库 (二) 后台数据的获取及质量评估

在gnomAD在数据库简介(1)中,我们简要介绍了基因组学遗传分析中人群变异频率的重要性和gnomAD一些数据库背景。

本文主要侧重于gnomAD下载和简单评估背景数据。

gnomAD下载数据的几种方式:

9a65d39427e42c17eaaa61d17ce78fdf.png

测试一下gsutil命令:

pip install gsutil   cd /home/shw/public/gnomAD   gsutillsgs://gcp-public-data--gnomad/release/ gsutillsgs://gcp-public-data--gnomad/release/2.1.1/liftover_grch38/vcf/exomes

为了更简单,我们仍然使用熟悉的wget命令下载:

nohup wget -c https://storage.googleapis.com/gcp-public-data--gnomad/release/2.1.1/liftover_grch38/vcf/exomes/gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz & headnohup.out

查看上述获取gnomAD(exomes,v2.1.1, LiftOver)VCF文件记录的变异位数:

zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | wc -l # 17205543

gnomAD这个外显子组的数据共包括在内个变异位点!我们应该知道,人类外显子组位的总数约为。这个比例依然很难得。随便找个基因的外显子序列,其中一半以上的核苷酸都能在gnomAD找出人群变异的频率!

在该VCF在文件中随机选择一个位点进行比较和测试,例如:

# 查看VCF文件的表头: zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | head -n 5000 | grep -v '##' | head -n 1   # 查看VCF变异位点的人群频率: zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | head -n 5000 | tail -n 1

(人群变异频率)AF=7.44679e-06

另外注释包括:转录本ID、密码变化、(反式)调控位点注释等信息

亚群频率、年龄分布、基因质量、测序深度、IGV等展示信息

其他信息,如临床意义:

从刚才的gnomAD(exomes, v2.1.1, LiftOver)VCF文件中提取AF信息:

nohupzcatgnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz|sed's/AF=/\t/g'|cut-f9|sed's/;/\t/g'|cut-f1>gnomad.exomes.r2.1.1.sites.liftover_grch38.AF.txt zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | cut -f 1-7 > gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.1-7col.txt & #按列合并: paste  gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.1-7col.txt gnomad.exomes.r2.1.1.sites.liftover_grch38.AF.txt | grep -v '##' >  gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt

镰刀镰刀贫血的致病性疾病HBB病变异位点:rs334

grep-wrs334gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt

chr11 5227002 rs334 T A 2136270.15 PASS 3.47958e-03

完全匹配dbSNP网站上Frequency中的GnomAD_exome,而且后者人群基数最大:

https://www.ncbi.nlm.nih.gov/snp/rs334

使用gnomAD(v2.1.1)在线检索:

令人惊讶的是,gnomAD在线检索结果也提供了等in-sillico以及有害预测ClinVar相关注释信息:

关于ClinVar详细介绍,及其对rs请查看334注释:ClinVar详细说明数据库。

继续使用gnomAD(v3.1.1)在线检索:rs334(大小写敏感!(In Silico Predictors)打分:

从上述操作中,从gnomAD(exomes, v2.1.1, LiftOver)的VCF文件提取了AF(等位基因人群频率)信息,以下是其总位点数:

wc -l   gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt # 17,201,297 gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt

当然,我们想知道所有3000万个位点的变异频率。因为不确定哪一天我们自己的外显子组测序数据测量了一个导致氨基酸变异的位点,但恰好没有gnomAD收录(这种情况是存在的),此时不知道AF,按照只好考虑放弃:只保留gnomAD中收录的、且AF<5%的位点。

那么gnomAD未收录的位点均被舍弃。也就是说,最终致病位点只能限制在gnomAD所收录的位点中(这依赖于gnomAD,是比较被动的)。此为

,但保留下来的某些位点仍然可能在人群中存在高频变异(AF>10%),而这些位点有可能是耐受的、良性的或非致病的位点。此为

因此一些研究或高水平文献中中收录的位点,目的就是尽量减少

因此我们还是希望gnomAD能覆盖到全部外显子序列(~3,000万个位点),这无疑是一个巨大挑战。

更多人类遗传学知识、文献和分析技术

请关注和星标聊生信

标签: shw铝电解电容器

锐单商城拥有海量元器件数据手册IC替代型号,打造 电子元器件IC百科大全!

锐单商城 - 一站式电子元器件采购平台