pyspark - 跳过前 2 行并从 pyspark 数据框中的行值中删除引号
问题描述
我有一个大约 15 列的 csv
- 我想跳过前 2 行并使用自定义架构
- 从行值中删除双引号
csv如下。
Header1 blah blah
Header2 blah blah
Name1;"1,456";"City1";"3";"pet"
Name2;"3,450";"City2";"4";"not pet"
delimiter = ";"
salesDF = spark.read.format("csv") \
.option("quote", "") \
.option("sep", delimiter) \
.load("sales_2018.csv")
salesDF = salesDF.replace("\"","")
我尝试如上所述从 csv 中删除引号。分隔符有效,但引号没有被删除。
结果如下: 它只添加了引号但没有删除。
Header1 blah blah
Header2 blah blah
"Name1;""1,456"";""City1"";""3"";""pet""
"Name2;""3,450"";""City2"";""4"";""not pet""
我的想法是删除引号并删除数据框的前 2 行以添加我的自定义架构。谢谢。
解决方案
推荐阅读
- javascript - 将数据库关系映射到 js 对象 - 递归对象引用问题
- javascript - Struts 2 ajax js调用返回404?
- php - 如何将元素添加到以更新的价格不断刷新的网页
- python - 在 python 的新列中计算一个时间窗口内的类别重复项(类似于使用 value_counts 滚动)
- angular - 类型“未知”不可分配给类型“字符串”
- arrays - 如何使用二进制、变量查找和 foreach 优化代码?
- java - Spring Integration 中当前的 FTP 连接池选项有哪些?
- python - Tkinter 按钮循环浏览列表
- python - 加入列表列表中的某些元素
- python - 使用 Plotly Dash 时 app.py 安装在哪里?