python - 如何从 Parquet 文件中获取确切的数据类型写入 PySpark 中的 Csv 文件
问题描述
我有一个 Parquet 文件试图转换为 CSV 文件。
>>> df.printSchema()
root
|-- id: integer (nullable = false)
|-- name: string (nullable = true)
|-- address: string (nullable = true)
|-- Zip: decimal(18,2)(nullable = true)
阅读镶木地板
df = spark.read.parquet("/temp/samplefile.parquet")
写入 CSV
df.write.csv("输出/samplefile.csv")
写入 csv 文件后,如果我看到所有数据类型都只变成字符串。
>>> df.printSchema()
root
|-- id: string(nullable = false)
|-- name: string (nullable = true)
|-- address: string (nullable = true)
|-- Zip: string(nullable = true)
谁能建议我如何将 Parquet 文件的相同数据类型转换为 Csv 文件。
解决方案
推荐阅读
- nestjs - 如何在nestjs中使用正则表达式进行验证?
- php - laravel 加入模型具有属性但返回 null
- python - SAS编程:如何使用一列替换多列中的缺失值?
- typescript - 已使用 Sinon 调用了断言依赖项
- python - Pandas:如何保留包含所有需要列的数据
- java - 由于格式 java/angular,按日期获取无法正常工作
- c++ - 如何通过 C++ 全局加载 file.lua 库而无需使用:loadfile("file.lua")() 导入它?
- .htaccess - 有什么更好的方法来强制用户拥有 https 而不是使用 www?
- php - 我可以为所有个人资料设置一页吗?
- php - spatie / async中的“不允许序列化'Closure'”异常?