首页 > 解决方案 > 如何将 Pyspark DF 转换为固定宽度并保存

问题描述

我需要使用特定模式扫描 FixedWidth 文件,一旦完成,应用的结果DF需要filters转换回固定宽度。在将文件保存到 s3 之前,我们如何应用此类转换。以下是我所做的。

df = spark.read.text(dataset_path)
# Dataframe with applied selection logic
df = df.select(
                df.value.substr(1, 10).alias('name'),
                df.value.substr(11, 20).alias('another_name'),
                df.value.substr(31, 60).alias('address')
            )
df = df.filter(df.name.isin('some_name'))

# Here is the dataframe which I need to convert to FixedWidth before saving.
df.save('s3a://somebucket/somepath')

有没有办法在 PySpark 中完成这项工作?

标签: python-3.xpyspark

解决方案


推荐阅读