pyspark - 读取多个 CSV 文件的更好方法
问题描述
我有 200 个基于日期的 csv 文件。其中,我只需要来自 50 个文件的数据。我应该阅读所有 200 个文件,然后根据日期过滤它们,还是应该只阅读这 50 个需要的文件?哪个是更好的选择性能明智?
解决方案
csv
方法DataFrameReader
接受创建数据框的路径列表。如果您确切知道所需的路径,只需生成一个列表并使用它。
推荐阅读
- laravel - 调用未定义的方法 Illuminate\Database\Eloquent\Builder::transform()
- numpy - 从 。import _mklinit ImportError: DLL load failed: 找不到指定的模块
- android - 数据绑定:无法调用观察者方法/Resources$NotFoundException
- listview - 具有 AutoSize 高度的 Xamarin.Forms ListView
- openssl - 获取 RSA PRIVATE KEY 而不是 PRIVATE KEY
- c++ - 在类中使用对文字的 const 引用时 C++ O2 内存泄漏
- python - SharePlum - 共享点列表 - 删除记录
- css - SVG
到 CSS - bash - 删除包含 2 个单词的重复行
- collections - Anylogic中的集合快捷方式