首页 > 解决方案 > Pyspark 加载文件并指定数据类型

问题描述

我想用 PySpark(来自 AWS S3)加载一个 csv 文件。我有一列在加载数据后被指定为整数,但我希望它是一个字符串。是否可以选择仅指定一列的数据类型?

df = (glueContext
          .read
          .option("inferSchema", "false")
          .load('s3://bucket/file.csv',
                           format="csv",
                           sep=",",
                           header=True,
                           inferSchema=True)
         )

标签: amazon-web-servicescsvtypespyspark

解决方案


推荐阅读