csv - 如何在读取 pyspark 数据框中的 csv 文件时读取选定的列?
问题描述
我试图在读取 csv 文件时读取选定的列。假设 csv 文件有 10 列,但我只想读取 5 列。有没有办法做到这一点?
我们可以使用 Pandas,usecols
但 pyspark 中是否还有可用的选项?
熊猫:
df=pd.read_csv(file_path,usecols=[1,2],index_col=0)
派斯帕克:
?
解决方案
如果要读取前 5 列,可以在读取整个 CSV 文件后选择前 5 列:
df = spark.read.csv(file_path, header=True)
df2 = df.select(df.columns[:5])
推荐阅读
- activemq-artemis - 嵌入式 ActiveMQ Artemis 不支持管理 (getQueueNames)
- ios - 发布到 App Store 时应用加载程序挂起
- cmake - 如何使用 cmake 生成 .out 文件?
- excel - Sumproduct sum 与单个单元格有效,但不适用于多个单元格
- android - 缺少 AndroidManifest.xml 尝试重新导入插件
- php - PHP程序从两个数组中找到不同的组合
- dialogflow-es - Webhook 调用失败,intent 被调用了 2 次
- python - 如何使用 Python 代码在 bash 中使用换行符进行多行输入
- c++ - 在 Visual Studio C++ 中编译时出现错误 MSB6006“CL.exe”并以代码 2 退出
- c++ - 修改嵌套 lambda 中捕获的参数:gcc vs clang?