首页 > 解决方案 > 如何从 Parquet 文件中获取确切的数据类型写入 PySpark 中的 Csv 文件

问题描述

我有一个 Parquet 文件试图转换为 CSV 文件。

>>> df.printSchema()
root
 |-- id: integer (nullable = false)
 |-- name: string (nullable = true)
 |-- address: string (nullable = true)
 |-- Zip: decimal(18,2)(nullable = true)

阅读镶木地板

df = spark.read.parquet("/temp/samplefile.parquet")

写入 CSV

df.write.csv("输出/samplefile.csv")

写入 csv 文件后,如果我看到所有数据类型都只变成字符串。

>>> df.printSchema()
root
 |-- id: string(nullable = false)
 |-- name: string (nullable = true)
 |-- address: string (nullable = true)
 |-- Zip: string(nullable = true)

谁能建议我如何将 Parquet 文件的相同数据类型转换为 Csv 文件。

标签: pythonapache-sparkpysparkparquet

解决方案


推荐阅读