python实现GATK多线程加速示例

 更新时间:2022年07月01日 11:02:34   作者:陈光辉_花生所  
这篇文章主要为大家介绍了python实现GATK多线程加速示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪

GATK 变异分析

对于大数据样本可能会比较慢,因此可以按照染色体拆分后进行多线程并行计算。

下面是我写的一个python多线程脚本,仅供参考,拙劣之处敬请指正。

#!/usr/bin/python3
import _thread
import os
import threading
import time
muthreads=[]
bam_file="a.mkdup.bam"
out_file_prefix="flower" 
chr_list=["CHR01","CHR02","CHR03","CHR04","CHR05","CHR06","CHR07","CHR08","CHR09","CHR10","CHR11","CHR12","CHR13"]
for chr in chr_list:
    threads_comonder_name= "gatk   HaplotypeCaller --intervals " + chr +"  -R /mnt/j/BSA/02-read-align/Tifrunner2.fasta -I " + bam_file + "   -ERC GVCF -O "+ out_file_prefix +"-"+chr+".erc.g.vcf"
    muthreads.append(threads_comonder_name)
exitFlag = 0
class myThread (threading.Thread):
    def __init__(self, threadID, name, counter, comander):
        threading.Thread.__init__(self)
        self.threadID = threadID
        self.name = name
        self.counter = counter
        self.comander = comander
    def run(self):
        print ("开始线程:" + self.name)
        print_time(self.name, self.counter, 5, self.comander)
        print ("退出线程:" + self.name)
def print_time(threadName, delay, counter,comander):
          # while counter:
   if exitFlag:
      threadName.exit()
   time.sleep(delay)
   print(comander)
   os.system(comander)#调用操作系统命令行处理数据
        # counter -= 1
# 创建新线程
threadlist=[]
for i, threadsnu in enumerate(muthreads[0:11]):
    print(i)
    print(threadsnu)
    threadsnew=myThread(1, "Thread-" + str(i), 2, threadsnu)
    threadlist.append(threadsnew)
# 开启新线程
for threads in threadlist:
    threads.start()
for threads in threadlist:
    threads.join()
print ("运行结束退出主线程")

下面的来自网络未验证

多条染色体的同样本的vcf文件合并

# for i in {1..22} X Y ;do echo "-I final_chr$i.vcf" '\';done
# for i in {10..19} {1..9} M X Y ;do echo "-I final_chr$i.vcf" '\';done
module load java/1.8.0_91
GATK=/home/jianmingzeng/biosoft/GATK/gatk-4.0.3.0/gatk
$GATK GatherVcfs  \
-I final_chr1.vcf \
-I final_chr2.vcf \
-I final_chr3.vcf \
-I final_chr4.vcf \
-I final_chr5.vcf \
-I final_chr6.vcf \
-I final_chr7.vcf \
-I final_chr8.vcf \
-I final_chr9.vcf \
-I final_chr10.vcf \
-I final_chr11.vcf \
-I final_chr12.vcf \
-I final_chr13.vcf \
-I final_chr14.vcf \
-I final_chr15.vcf \
-I final_chr16.vcf \
-I final_chr17.vcf \
-I final_chr18.vcf \
-I final_chr19.vcf \
-I final_chr20.vcf \
-I final_chr21.vcf \
-I final_chr22.vcf \
-I final_chrX.vcf \
-I final_chrY.vcf \
-O merge.vcf 

合并的时候需要注意,vcf文件的顺序跟每个vcf文件里面头文件顺序是相同的。

以上就是python实现GATK多线程加速示例的详细内容,更多关于python GATK多线程加速的资料请关注脚本之家其它相关文章!

相关文章

  • python RC4加密操作示例【测试可用】

    python RC4加密操作示例【测试可用】

    这篇文章主要介绍了python RC4加密操作,结合实例形式分析了python实现RC4加密功能的具体操作步骤与相关问题解决方法,需要的朋友可以参考下
    2019-09-09
  • 解读时间序列分析之ADF检验

    解读时间序列分析之ADF检验

    这篇文章主要介绍了解读时间序列分析之ADF检验,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-12-12
  • python 包之 re 正则匹配教程分享

    python 包之 re 正则匹配教程分享

    这篇文章主要介绍了python 包之 re 正则匹配教程分享,文章基于python 包 re的相关资料展开贵主题的详细介绍,需要的小伙伴可以参考一下
    2022-04-04
  • python 时间处理之月份加减问题

    python 时间处理之月份加减问题

    这篇文章主要介绍了python 时间处理之月份加减问题,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-11-11
  • Python中6种中文文本情感分析的方法详解

    Python中6种中文文本情感分析的方法详解

    中文文本情感分析是一种将自然语言处理技术应用于文本数据的方法,它可以帮助我们了解文本中所表达的情感倾向,Python中就有多种方法可以进行中文文本情感分析,下面就来和大家简单讲讲
    2023-06-06
  • Python手写回归树的实现

    Python手写回归树的实现

    本文主要介绍了Python手写回归树的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2022-06-06
  • Python如何对图像补全并分割成多块补丁

    Python如何对图像补全并分割成多块补丁

    这篇文章主要介绍了Python如何对图像补全并分割成多块补丁,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-05-05
  • Python判断文件或文件夹是否存在的三种方法

    Python判断文件或文件夹是否存在的三种方法

    本文给大家介绍三种判断文件或文件夹是否存在的方法,分别使用os模块、Try语句、pathlib模块。感兴趣的朋友一起看看吧
    2017-07-07
  • 深入分析python中整型不会溢出问题

    深入分析python中整型不会溢出问题

    本文给大家通过实例和原理深入分析了python中整型不会溢出的相关知识点,有兴趣的朋友可以跟着学习下。
    2018-06-06
  • python实现将一维列表转换为多维列表(numpy+reshape)

    python实现将一维列表转换为多维列表(numpy+reshape)

    今天小编就为大家分享一篇python实现将一维列表转换为多维列表(numpy+reshape),具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2019-11-11

最新评论