snakemake - 当上游规则失败时,Snakemake 如何执行下游规则
问题描述
抱歉标题不好 - 我无法弄清楚如何用几句话最好地解释我的问题。当其中一条规则失败时,我在处理 snakemake 中的下游规则时遇到问题。在下面的示例中,规则黑桃在某些样本上失败。这是意料之中的,因为我的一些输入文件会有问题,黑桃会返回错误,并且没有生成目标文件。这很好,直到我开始统治 eval_ani。在这里,我基本上想对所有成功输出的规则 ani 运行此规则。但我不确定如何做到这一点,因为我已经有效地丢弃了一些我的样本。我认为使用snakemake 检查点可能很有用,但我只是无法从文档中弄清楚如何应用它。
我还想知道是否有一种方法可以在不重新运行规则黑桃的情况下重新运行规则 ani。假设我提前终止了我的运行,并且规则 ani 没有在所有样本上运行。现在我想重新运行我的管道,但我不希望 snakemake 尝试重新运行所有失败的黑桃作业,因为我已经知道它们对我没有用,而且只会浪费资源。我尝试了 -R 和 --allowed-rules 但这些都不是我想要的。
rule spades:
input:
read1=config["fastq_dir"]+"combined/{sample}_1_combined.fastq",
read2=config["fastq_dir"]+"combined/{sample}_2_combined.fastq"
output:
contigs=config["spades_dir"]+"{sample}/contigs.fasta",
scaffolds=config["spades_dir"]+"{sample}/scaffolds.fasta"
log:
config["log_dir"]+"spades/{sample}.log"
threads: 8
shell:
"""
python3 {config[path_to_spades]} -1 {input.read1} -2 {input.read2} -t 16 --tmp-dir {config[temp_dir]}spades_test -o {config[spades_dir]}{wildcards.sample} --careful > {log} 2>&1
"""
rule ani:
input:
config["spades_dir"]+"{sample}/scaffolds.fasta"
output:
"fastANI_out/{sample}.txt"
log:
config["log_dir"]+"ani/{sample}.log"
shell:
"""
fastANI -q {input} --rl {config[reference_dir]}ref_list.txt -o fastANI_out/{wildcards.sample}.txt
"""
rule eval_ani:
input:
expand("fastANI_out/{sample}.txt", sample=samples)
output:
"ani_results.txt"
log:
config["log_dir"]+"eval_ani/{sample}.log"
shell:
"""
python3 ./bin/evaluate_ani.py {input} {output} > {log} 2>&1
"""
解决方案
如果我理解正确,您希望在不停止整个管道的情况下允许黑桃失败,并且您希望忽略失败的黑桃的输出文件。为此,您可以附加到运行 spades 的命令|| true
以捕获非零退出状态(因此 snakemake 不会停止)。然后,您可以分析黑桃的输出并写入“标志”文件,无论该样本是否成功。所以规则黑桃是这样的:
rule spades:
input:
read1=config["fastq_dir"]+"combined/{sample}_1_combined.fastq",
read2=config["fastq_dir"]+"combined/{sample}_2_combined.fastq"
output:
contigs=config["spades_dir"]+"{sample}/contigs.fasta",
scaffolds=config["spades_dir"]+"{sample}/scaffolds.fasta",
exit= config["spades_dir"]+'{sample}/exit.txt',
log:
config["log_dir"]+"spades/{sample}.log"
threads: 8
shell:
"""
python3 {config[path_to_spades]} ... || true
# ... code that writes to {output.exit} stating whether spades succeded or not
"""
对于以下步骤,您将使用标志文件'{sample}/exit.txt'
来决定应使用哪些铲形文件以及应丢弃哪些铲形文件。例如:
rule ani:
input:
spades= config["spades_dir"]+"{sample}/scaffolds.fasta",
exit= config["spades_dir"]+'{sample}/exit.txt',
output:
"fastANI_out/{sample}.txt"
log:
config["log_dir"]+"ani/{sample}.log"
shell:
"""
if {input.exit} contains 'PASS':
fastANI -q {input.spades} --rl {config[reference_dir]}ref_list.txt -o fastANI_out/{wildcards.sample}.txt
else:
touch {output}
"""
rule eval_ani:
input:
ani= expand("fastANI_out/{sample}.txt", sample=samples),
exit= expand(config["spades_dir"]+'{sample}/exit.txt', sample= samples),
output:
"ani_results.txt"
log:
config["log_dir"]+"eval_ani/{sample}.log"
shell:
"""
# Parse list of file {input.exit} to decide which files in {input.ani} should be used
python3 ./bin/evaluate_ani.py {input} {output} > {log} 2>&1
"""
编辑 (未测试)而不是在指令|| true
内部,使用指令并使用 python运行允许失败的系统命令shell
可能会更好。原因是无论发生什么错误都会返回 0 退出代码;相反,该解决方案允许更精确地处理异常。例如run
subprocess
|| true
subprocess
rule spades:
input:
...
output:
...
run:
cmd = "spades ..."
p = subprocess.Popen(cmd, shell= True, stdout= subprocess.PIPE, stderr= subprocess.PIPE)
stdout, stderr= p.communicate()
if p.returncode == 0:
print('OK')
else:
# Analyze exit code and stderr and decide what to do next
print(p.returncode)
print(stderr.decode())
推荐阅读
- scroll - 在滚动事件角度 5 上更新全局变量
- kubernetes - kubernetes-gluster 中的 Gluster Arbiter-3 StorageClass 卷类型?
- oracle - Oracle - 函数中的 Null 或 Blank 参数值
- r - fisher.test 中的错误:fexact3 中的错误,it[i=6]=0:否定键 (kyy=91)
- html - 使隐藏字段成为必需
- java - 如何从不同的包访问 Java Swing JCheckBox 的 doClick() 方法?
- angular - 如何使用从 papaparse 中的完整功能获得的结果/数据进行 http 发布?
- json - 在Javascript中将二进制文件从Excel xlsb文件解析为JSON
- c++ - ] 之前的预期主要表达?(C++)
- c - 是否可以为进程分配持久内存?