python - Kedro: How to pass multiple same data from a directory as a node input?
问题描述
I have a directory with multiple files for the same data format (1 file per day). It's like one data split into multiple files.
Is it possible to pass all the files to A Kedro node without specifying each file? So they all get processed sequentially or in parallel based on the runner?
解决方案
- 如果文件数量很小且固定,您可以考虑手动为每个文件创建这些预处理管道。
- 如果文件的数量很大/动态,您可以以编程方式为每个文件创建管道定义,然后将它们全部添加在一起。同样可能适用于所需数据集的编程创建。
- 另一种选择是在第一个节点中读取所有文件一次,将它们全部连接到一个数据集中,并使所有连续的 preproc 节点使用该数据集(或其派生类)作为输入
推荐阅读
- javascript - 如何在 Bootstrap Popover 中启用 Bootstrap 4 Carousel
- nlp - 信息检索数据收集
- java - Spring Cloud Gateway 和 Spring Security 将经过身份验证的角色传递给微服务
- python - 如何在 python 中加速 jaro-winkler 进程(多线程?pyspark?)
- java - 错误:'请通过更新版本来修复版本冲突......'
- php - Laravel,在保存期间创建额外记录的特征?
- python - 将特定字符串与单词 python 进行比较
- python - ubuntu 18.04 ImportError:没有名为_backend_gdk的模块
- spring - Spring Signleton 中 ScheduledExecutorService 的生命周期(启动、关闭)
- python - 找到节点的最小成本集,以便一旦删除,图就会断开连接