python-3.x - 如何将 Pyspark DF 转换为固定宽度并保存
问题描述
我需要使用特定模式扫描 FixedWidth 文件,一旦完成,应用的结果DF
需要filters
转换回固定宽度。在将文件保存到 s3 之前,我们如何应用此类转换。以下是我所做的。
df = spark.read.text(dataset_path)
# Dataframe with applied selection logic
df = df.select(
df.value.substr(1, 10).alias('name'),
df.value.substr(11, 20).alias('another_name'),
df.value.substr(31, 60).alias('address')
)
df = df.filter(df.name.isin('some_name'))
# Here is the dataframe which I need to convert to FixedWidth before saving.
df.save('s3a://somebucket/somepath')
有没有办法在 PySpark 中完成这项工作?
解决方案
推荐阅读
- javascript - 从 vuex 存储中检索常规类实例时 this 变为 null
- java - 在 java selenium 中执行测试用例之前,我可以在桌面上显示消息吗?
- python - 在python中重新格式化列表
- python - 使用 python 客户端库获取 dataproc worker 配置
- c# - 从 C# 中的方法返回泛型类的实例
- html - 角度自定义标签不呈现和执行功能
- python - 需要找到一组字符的所有可能组合
- javascript - Robin Herbots jquery.inputmask 允许许多值以逗号分隔
- node.js - 节点 js 中的 Sage pay 集成
- python - 补丁颜色全部在补丁集合中重置