csv - 读入火花数据框时如何从csv文件中删除列
问题描述
我正在尝试从 csv 文件创建一个 spark 数据框,但是我不想在数据框中包含来自原始数据的特定列。在设置架构或读取 csv 文件时这可能吗?
解决方案
@Manu Valdés的drop
答案是最好的方法,这里是代码pyspark
假设我们有file.csv
3 列:
col1;col2;col3
val1;val2;val3
val4;val5;val6
现在读取 csv 文件sqlContext
:
df = sqlContext.read.format('csv').options(header='true', delimiter=';').load('/FileStore/file.csv')
df.printSchema()
root
|-- col1: string (nullable = true)
|-- col2: string (nullable = true)
|-- col3: string (nullable = true)
掉落col2
:
df2 = df.drop('col2')
df2.printSchema()
root
|-- col1: string (nullable = true)
|-- col3: string (nullable = true)
推荐阅读
- docker - 登录 keycloak 时需要 Https
- ruby-on-rails - 在 Rails 中使用强参数允许嵌套数组
- java - 如何在android中计算arcore中的图像质量分数?
- python - 熊猫数据框替换值
- python - 如何解决python中的java.util.zip.ZipException错误
- android - 如何通过获取项目位置来聚焦/滚动到 recyclerView 中的特定项目
- linux - 使用 cmake 编译后,执行时找不到库
- sql - 选择相互关联的用户并按组对它们进行聚类
- rust - 如何将类型存储在数组中?
- excel - PowerShell - 将多个 CSV 文件导入多个工作表中的 Excel 文件