nextflow - 从通道扩展路径
问题描述
我的数据结构为批量运行的样本。所以我有一个这样的目录层次结构:
/path/to/dir/batch_1/sample_1
/path/to/dir/batch_1/sample_2
/path/to/dir/batch_1/...
/path/to/dir/batch_2/sample_1
/path/to/dir/batch_2/sample_2
/path/to/dir/batch_2/...
/path/to/dir/...
我想对给定批次子集的每个样本应用一个过程。一种可行的方法是生成一个列出样本的通道:
path_to_samples= Channel
.fromPath(['/path/to/dir/batch_2/sample_*',
'/path/to/dir/batch_322/sample_*'], type: 'dir' )
process my_process{
input:
path(sample) from path_to_samples
"""
do stuff
"""
}
现在,我想单独提供批次名称,并让脚本找到相应的样本。像这样的东西:
params.root_dir = '/path/to/dir/'
params.batch_names = Channel.from('batch_2', 'batch_322')
// make samples channel: incorrect
path_to_samples = params.batch_names
.map { params.root_dir + it + 'sample_*' }
.toPath()
process my_process{
input:
path(sample) from path_to_samples
"""
do stuff
"""
}
所以,我对渠道的看法不正确?有没有办法通过通道操作“展平”样本列表?或者是制作更复杂的 Groovy 闭包的正确方法,它将列出每个批处理目录中的文件并将其作为元组或列表返回?
解决方案
不确定您希望如何提供输入批次名称,但您可以使用简单的闭包创建 glob 模式列表,然后使用它们来创建输入通道:
params.root_dir = '/path/to/dir'
params.batch_names = /path/to/batch_names.txt'
batch_names = file(params.batch_names)
sample_dirs = batch_names.readLines().collect { "${params.root_dir}/${it}/sample_*" }
samples = Channel.fromPath( sample_dirs, type: 'dir' )
process my_process{
input:
path(sample) from samples
"""
ls -l "${sample}"
"""
}
不过,我倾向于将输入 glob 模式保留为参数。这种方法提供了最大的灵活性,但可能不适合您的用例:
params.samples = '/path/to/dir/batch_{2,322}/sample_*'
samples = Channel.fromPath( params.samples, type: 'dir' )
推荐阅读
- ios - 如何限制 Firebase 仅访问一个 iOS 应用
- javascript - querySelectorAll() 定位 rel="me" 属性和包含“12345”的 href 属性
- android - 模拟器:系统 UI 没有响应,可怕的应用程序故障
- sql - SQL - 将 yyyy-MM-ddThh:mm:ssZ 转换为没有时间的简单日期
- python - 如何使用谷歌云平台 TPU v3?
- python - 如何在 pycharm 中创建 gitignore 文件?(视窗)
- macos - 在 Mac/Safari 上的 Office.js 中打开 Office URI 方案 URL 时出现问题
- spring-boot - Camel 3.5 记录器、Spring Boot 和 log4j2
- shopify - 液体:原始内部的 if 语句
- react-native - 如何使用 React Navigation V5 在 goBack 上刷新页面