热点新闻
一定要使用包含Decoy的参考基因组啊!
2024-08-03 20:17  浏览:1050  搜索引擎搜索“手机全球会展网”
温馨提示:信息一旦丢失不一定找得到,请务必收藏信息以备急用!本站所有信息均是注册会员发布如遇到侵权请联系文章中的联系方式或客服删除!
联系我时,请说明是在手机全球会展网看到的信息,谢谢。
展会发布 展会网站大全 报名观展合作 软文发布

缘起

今天有人咨询我,PRSS1基因NM_002769.5转录本的 c.86A>Tp.Asn29Ile 突变(rs111033566,位于chr7,hg19坐标为chr7:142458451,hg38坐标为chr7: 142750600)是否应该报告?这个基因组在ClinVar中被认为Pathogenic,据文献报道跟Hereditary pancreatitis等遗传疾病相关。但是,该突变接连出现在多个健康人的检测样品中,致病突变似乎不应该有如此高的人群频率!

于是进入dbSNP,看看该突变在人群中的频率,一查发现,该突变在不同队列中,仿佛分为两个“流派”!

首先,在诸如gnomAD-Genomes1000Genomes等项目中,该突变以A>C为主,且人群突变频率极低:




image.png

然而在Exac中,该位点又变成了A>T为主,且人群突变频率接近50% !




image.png

基因组中添加Decoy

于是,我随机打开先前分析过的几个全外数据,发现这个位点上几乎都是A>T突变:




image.png

而且,带有突变的Reads,在上游也存在T>C以及下游的几处点突变(若覆盖到)。

随机点开一个带有突变的Reads,发现该Reads比对分数不高,且比对到其他坐标!




image.png

偶然间,发现另外一家公司提供的bam文件中,该位置没有发现这类Reads,于是查看bam文件头上的操作信息,发现他们使用的参考基因组为hs37d5

相比我自己使用的GATK b37hs37d5只是多出了两条病毒序列,以及李恒大神提供的Decoy序列。莫非Decoy序列会帮我们把比对结果弄干净了?

于是赶紧下载hs37d5的序列,构建bwa的index,重新比对后终于发现:




image.png

带有Decoy的hs37d5比对结果中,该突变的Reads消失了(IGV截图上半截)!

Decoy咋来的?

hs37d5下载的ftp上,附有李恒大神的讲解幻灯片:




image.png

这群Decoy序列在1000genome项目时代已经被发现!此外还添加了部分重复序列(422kb)和其他无法比对到人参考基因组上的序列。最终去完冗余,这对序列一共34.5Mb。

添加了Decoy,在李恒大神的幻灯片中,效果更是立竿见影:




image.png

看来Exac的频率也不那么可信。。。

联想到,在没有Decoy的比对结果中,chr7:142458371 T>C(rs367779270)总伴随着带有rs111033566的reads出现,顺便也查查rs367779270在dbSNP中的突变记录:




image.png

人群频率还是一般泾渭分明!

Exac项目的Nature论文中提及的方法,是将Reads比对到gencode v19的 hg19 参考基因组版本上的。有没有另外加Decoy我不好揣测。但现在看,Exac中给出的部分突变人群频率,或许要存疑了!

发布人:ae83****    IP:124.223.189***     举报/删稿
展会推荐
让朕来说2句
评论
收藏
点赞
转发