python - 如何使用 pyspark 将 bz2 文件读入数据帧?
问题描述
我可以使用将 json 文件读入 Pyspark 中的数据框
spark = SparkSession.builder.appName('GetDetails').getOrCreate()
df = spark.read.json("path to json file")
但是,当我尝试将 bz2(压缩 csv)读入数据帧时,它给了我一个错误。我在用:
spark = SparkSession.builder.appName('GetDetails').getOrCreate()
df = spark.read.load("path to bz2 file")
你能帮我纠正一下吗?
解决方案
该方法spark.read.load()
有一个可选参数format
,默认为“parquet”。
因此,要使您的代码正常工作,它应该如下所示:
df = spark.read.load("data.json.bz2", format="json")
此外,spark.read.json
将完全适用于压缩的 JSON 文件,例如:
df = spark.read.json("data.json.bz2")
推荐阅读
- python - 我正在尝试使用 python 连接到 mysql,但出现错误
- view - 在 javafxml 应用程序中初始化控制器时的空指针
- javascript - 是否有脚本可以将图表的 y 轴值更改为阿拉伯值?
- python - 有什么 pythonic 方式来清理这个字典列表?
- javascript - 如何从 HTML 中提取“有两个孩子的父母”模式
- php - 在数据透视表的页面上显示照片的问题
- filter - Crystal过滤中的记录选择公式过多
- python - 根据另一列的字符串删除列中的字符串
- c++ - 如何在类体内获取对象名称?
- java - 无法使用 Maven 从终端运行测试