首页 > 解决方案 > 如何使用 pyspark 在 Hadoop 中读取 parquet 文件、更改数据类型并写入另一个 Parquet 文件

问题描述

我的源镶木地板文件将所有内容都作为字符串。我的目标 parquet 文件需要将其转换为不同的数据类型,如 int、string、date 等。我该怎么做?

标签: pythonapache-sparkhadooppyspark

解决方案


您应该阅读该文件,然后根据需要对所有列进行类型转换并保存它们

from pyspark.sql.functions import *
df = spark.read.parquet('/path/to/file')
df = df.select(col('col1').cast('int'), col('col2').cast('string'))
df.write.parquet('/target/path')

推荐阅读