在gnomAD在数据库简介(1)中,我们简要介绍了基因组学遗传分析中人群变异频率的重要性和gnomAD一些数据库背景。
本文主要侧重于gnomAD下载和简单评估背景数据。
gnomAD下载数据的几种方式:
测试一下gsutil命令:
pip install gsutil cd /home/shw/public/gnomAD gsutillsgs://gcp-public-data--gnomad/release/ gsutillsgs://gcp-public-data--gnomad/release/2.1.1/liftover_grch38/vcf/exomes
为了更简单,我们仍然使用熟悉的wget命令下载:
nohup wget -c https://storage.googleapis.com/gcp-public-data--gnomad/release/2.1.1/liftover_grch38/vcf/exomes/gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz & headnohup.out
查看上述获取gnomAD(exomes,v2.1.1, LiftOver)VCF文件记录的变异位数:
zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | wc -l # 17205543
gnomAD这个外显子组的数据共包括在内
在该VCF在文件中随机选择一个位点进行比较和测试,例如:
# 查看VCF文件的表头: zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | head -n 5000 | grep -v '##' | head -n 1 # 查看VCF变异位点的人群频率: zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | head -n 5000 | tail -n 1
(人群变异频率)AF=7.44679e-06
另外注释包括:转录本ID、密码变化、(反式)调控位点注释等信息
亚群频率、年龄分布、基因质量、测序深度、IGV等展示信息
其他信息,如临床意义:
从刚才的gnomAD(exomes, v2.1.1, LiftOver)VCF文件中提取AF信息:
nohupzcatgnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz|sed's/AF=/\t/g'|cut-f9|sed's/;/\t/g'|cut-f1>gnomad.exomes.r2.1.1.sites.liftover_grch38.AF.txt zcat gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.bgz | cut -f 1-7 > gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.1-7col.txt & #按列合并: paste gnomad.exomes.r2.1.1.sites.liftover_grch38.vcf.1-7col.txt gnomad.exomes.r2.1.1.sites.liftover_grch38.AF.txt | grep -v '##' > gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt
镰刀镰刀贫血的致病性疾病HBB病变异位点:rs334
grep-wrs334gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt
chr11 5227002 rs334 T A 2136270.15 PASS 3.47958e-03
完全匹配dbSNP网站上Frequency中的GnomAD_exome,而且后者人群基数最大:
https://www.ncbi.nlm.nih.gov/snp/rs334
使用gnomAD(v2.1.1)在线检索:
令人惊讶的是,gnomAD在线检索结果也提供了
关于ClinVar详细介绍,及其对rs请查看334注释:ClinVar详细说明数据库。
继续使用gnomAD(v3.1.1)在线检索:rs334(大小写敏感!
从上述操作中,从gnomAD(exomes, v2.1.1, LiftOver)的VCF文件提取了AF(等位基因人群频率)信息,以下是其总位点数:
wc -l gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt # 17,201,297 gnomad.exomes.r2.1.1.sites.liftover_grch38.7col_AF.txt
当然,我们想知道所有3000万个位点的变异频率。因为不确定哪一天我们自己的外显子组测序数据测量了一个导致氨基酸变异的位点,但恰好没有gnomAD收录(这种情况是存在的),此时不知道AF,按照
那么gnomAD未收录的位点均被舍弃。也就是说,最终致病位点只能限制在gnomAD所收录的位点中(这依赖于gnomAD,是比较被动的)。此为
因此一些研究或高水平文献中
因此我们还是希望gnomAD能覆盖到全部外显子序列(~3,000万个位点),这无疑是一个巨大挑战。
更多人类遗传学知识、文献和分析技术
请关注和星标聊生信