apache-spark - 从 csv 文件加载单列
问题描述
我有一个csv
包含大量列的文件。我想使用spark
.
我知道我们可以使用 select 语句来过滤列。但是我想要的是,在进行read
操作本身时,它应该只加载一列。
这样,我应该能够避免其他列使用额外的内存。有没有办法做到这一点?
解决方案
Spark 将加载完整的文件并解析列。正如您所提到的,您可以使用 select 来限制数据框中的列,因此数据框将只有一列。
推荐阅读
- vue.js - Web3js 在 Vue3 组合 api 项目中导入失败
- contactless-smartcard - 从智能卡读取数据 - pyscard
- javascript - 检查对象数组值是否为空
- javascript - 对对象数组进行深度过滤
- c# - 如何在 .NET 中获取 Linux 文件类型(常规、durector、符号链接、字符设备等)?
- gatsby - 在 Gatsby 中以编程方式创建帖子时,如何使用多个模板显示来自 Contentful API 的博客帖子
- python - Seaborn histplot 使用奇怪的 y 轴限制?
- python - 从给定的百分比创建饼图,而不是值
- javascript - 如何从给定的 api 打印标题?
- gcc - gcc:使用-fsingle-precision-constant时如何编写双精度常量