首页 > 解决方案 > 如果列名有逗号作为列分隔符,如何在 pyspark 中将 csv 读入 df?

问题描述

我的 csv 文件有这些列:

'column1', 'column2,structured_well_data'  , 'column3', 'column4,distributed_sys_org23454' 

等等我读取 csv 文件的代码是这样的:

pandas_config =  df_config.toPandas()

for index, row in pandas_config.iterrows(): 
    
    row["sor_path"] = "/" + row["sor_path"]
   
    df_csv = spark.read.format("delta").load(row["sor_path"], format = "csv", header = "true", inferschema = "true")
    df_csv.createOrReplaceTempView("V_" + row["sor_name"])
    print("V_" + row["sor_name"] + " has been created..")
       

我正在做这个:

df_csv = spark.read.format("delta").load(row["sor_path"], format = "csv", header = "true", inferschema = "true")

我尝试添加选项:

df_csv = spark.read.option('delimiter', ',').format("delta").load(row["sor_path"], format = "csv", header = "true", inferschema = "true")

但不工作。

csv 文件如下所示:

kk

如何处理这种情况?

标签: csvpysparkapache-spark-sqlpyspark-dataframes

解决方案


推荐阅读