热点新闻
gatk pathseq使用
2024-02-25 10:52  浏览:2118  搜索引擎搜索“手机全球会展网”
温馨提示:信息一旦丢失不一定找得到,请务必收藏信息以备急用!本站所有信息均是注册会员发布如遇到侵权请联系文章中的联系方式或客服删除!
联系我时,请说明是在手机全球会展网看到的信息,谢谢。
展会发布 展会网站大全 报名观展合作 软文发布

1、pathseq的简介

建议参考连接:https://mp.weixin.qq.com/s/aPY6nLJJdpipym7Td6sFsA

PathSeq 是一个 GATK 管道,用于检测取自宿主生物体(例如人类)的短读长深度测序样本中的微生物。比如人类肿瘤测序数据,就可以使用它看看是否有微生物序列

下图总结了它的工作原理。该管道先对reads进行质量过滤,减去来自宿主的reads,将剩余的(非宿主)reads与微生物参考基因组比对,并生成检测到的微生物的表。结果可用于确定微生物的存在和丰度以及发现新的微生物序列。






2、准备参考文件

宿主的参考基因组

微生物参考基因组

  • 最新的微生物参考文件:
    更新时间:2019年12月
    微生物的参考基因组大小为64.6G
    https://console.cloud.google.com/storage/browser/gcp-public-data--broad-references/hg38/v0/CrossSpeciesContamination






  • broad的数据包集合
    更新时间:2017年12月

gsutil ls gs://gatk-best-practices/pathseq/resources/ gs://gatk-best-practices/pathseq/resources/ gs://gatk-best-practices/pathseq/resources/RefSeq-release91.catalog.gz gs://gatk-best-practices/pathseq/resources/index.html gs://gatk-best-practices/pathseq/resources/meats.dict gs://gatk-best-practices/pathseq/resources/meats.fa gs://gatk-best-practices/pathseq/resources/meats.fa.fai gs://gatk-best-practices/pathseq/resources/meats.fa.img gs://gatk-best-practices/pathseq/resources/meats.min2k.db gs://gatk-best-practices/pathseq/resources/pathseq_bundle_readme.txt gs://gatk-best-practices/pathseq/resources/pathseq_host.bfi gs://gatk-best-practices/pathseq/resources/pathseq_host.fa.img gs://gatk-best-practices/pathseq/resources/pathseq_host.tar.gz gs://gatk-best-practices/pathseq/resources/pathseq_microbe.tar.gz gs://gatk-best-practices/pathseq/resources/pathseq_microbe_list.txt gs://gatk-best-practices/pathseq/resources/pathseq_taxonomy.tar.gz gs://gatk-best-practices/pathseq/resources/taxdump.tar.gz</pre>

  • 下载数据

建议下载最新的微生物参考文件

gsutil cp gs://gcp-public-data--broad-references/hg38/v0/CrossSpeciesContamination/CrossSpeciesContaminant/pathseq_microbe.fa ./

或者 下载资源包中的数据,二选一

gsutil cp gs://gatk-best-practices/pathseq/resources/pathseq_microbe.tar.gz ./

pathseq_microbe.tar.gz这个压缩包包含了以下四个文件,总文件大小 90G






3、报错处理

3.1 java IO报错

gatk处理大的bam文件的时候,可能在IO上报错:

“java.io.FileNotFoundException Too many open files”




image.png

原因:

Linux的系统对每个程序最多处理的文件数目有限制。

ulimit -n ulimit -s


image.png

解决方法:

使用prlimit命令更改使用的进程的最大文件数目。

prlimit --pid <pid> --nofile=102400:102400

发布人:f0a1****    IP:124.223.189***     举报/删稿
展会推荐
让朕来说2句
评论
收藏
点赞
转发