首页 > 解决方案 > Kedro: How to pass multiple same data from a directory as a node input?

问题描述

I have a directory with multiple files for the same data format (1 file per day). It's like one data split into multiple files.

Is it possible to pass all the files to A Kedro node without specifying each file? So they all get processed sequentially or in parallel based on the runner?

标签: pythonkedro

解决方案


  1. 如果文件数量很小且固定,您可以考虑手动为每个文件创建这些预处理管道。
  2. 如果文件的数量很大/动态,您可以以编程方式为每个文件创建管道定义,然后将它们全部添加在一起。同样可能适用于所需数据集的编程创建。
  3. 另一种选择是在第一个节点中读取所有文件一次,将它们全部连接到一个数据集中,并使所有连续的 preproc 节点使用该数据集(或其派生类)作为输入

推荐阅读