python - 如何使用 pyspark 在 Hadoop 中读取 parquet 文件、更改数据类型并写入另一个 Parquet 文件
问题描述
我的源镶木地板文件将所有内容都作为字符串。我的目标 parquet 文件需要将其转换为不同的数据类型,如 int、string、date 等。我该怎么做?
解决方案
您应该阅读该文件,然后根据需要对所有列进行类型转换并保存它们
from pyspark.sql.functions import *
df = spark.read.parquet('/path/to/file')
df = df.select(col('col1').cast('int'), col('col2').cast('string'))
df.write.parquet('/target/path')
推荐阅读
- azure - 无法发布 Azure 数据工厂管道更改
- windows - 如果循环在循环窗口批处理文件中不起作用
- asp.net-mvc - 如何将参数与模型一起传递?
- tensorflow - 谷歌云 TPU:NotImplementedError:TPU 计算中不支持非资源变量
- angular - 当字符在文本框中时隐藏内容
- django - 类型错误:__init__() 接受 1 个位置参数,但给出了 2 个。我已经看到了许多针对此错误的解决方案,但没有一个与我的情况相符
- pdf - 检测文件夹中的 PDF 文件并检查它是否打开
- arduino - IP 数据包处理 - ARDUINO
- sql - 在 BigQuery 上运行过去 30 天的 Sum
- ios - 将可平移的 UIView 保持在边界内