首页 > 解决方案 > 跳过前 2 行并从 pyspark 数据框中的行值中删除引号

问题描述

我有一个大约 15 列的 csv

  1. 我想跳过前 2 行并使用自定义架构
  2. 从行值中删除双引号

csv如下。

Header1 blah blah
Header2 blah blah
Name1;"1,456";"City1";"3";"pet"
Name2;"3,450";"City2";"4";"not pet"


delimiter = ";"
salesDF =  spark.read.format("csv") \
     .option("quote", "") \
     .option("sep", delimiter) \     
     .load("sales_2018.csv") 
salesDF = salesDF.replace("\"","")

我尝试如上所述从 csv 中删除引号。分隔符有效,但引号没有被删除。

结果如下: 它只添加了引号但没有删除。

Header1 blah blah
Header2 blah blah
"Name1;""1,456"";""City1"";""3"";""pet""
"Name2;""3,450"";""City2"";""4"";""not pet""

我的想法是删除引号并删除数据框的前 2 行以添加我的自定义架构。谢谢。

标签: pysparkazure-databricks

解决方案


推荐阅读