首页 > 解决方案 > 读取多个 CSV 文件的更好方法

问题描述

我有 200 个基于日期的 csv 文件。其中,我只需要来自 50 个文件的数据。我应该阅读所有 200 个文件,然后根据日期过滤它们,还是应该只阅读这 50 个需要的文件?哪个是更好的选择性能明智?

标签: pyspark

解决方案


csv方法DataFrameReader接受创建数据框的路径列表。如果您确切知道所需的路径,只需生成一个列表并使用它。


推荐阅读