首页 > 解决方案 > Spark - tsv文件读为空

问题描述

我有一个 .csv 文件,它使用“\t”作为分隔符,我试图将其读取为:

DF =  sqlc.read.format('csv').option('header', 'true').option('delimiter', '\t').load('file.csv')

一些标题列名称以及数据值确实包含空格,但从不包含制表符。这个文件的头被正确读入了DF的头,但是没有数据被读入DataFrame。我究竟做错了什么?

标签: pythoncsvapache-sparkformatting

解决方案


您是否尝试过使用SparkSessionAPI?

from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
# spark_context = spark.sparkContext
csv = spark.read.csv(csv_path, sep="\t")
csv.show()

文档在这里: https ://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=csv#pyspark.sql.DataFrameReader.csv


推荐阅读