amazon-web-services - Pyspark 加载文件并指定数据类型
问题描述
我想用 PySpark(来自 AWS S3)加载一个 csv 文件。我有一列在加载数据后被指定为整数,但我希望它是一个字符串。是否可以选择仅指定一列的数据类型?
df = (glueContext
.read
.option("inferSchema", "false")
.load('s3://bucket/file.csv',
format="csv",
sep=",",
header=True,
inferSchema=True)
)
解决方案
推荐阅读
- linux - 在 Dockerfile 中使用 wget 时如何自动回答“是”?
- sql - 复杂的group by - windows
- node.js - 我还需要使用 CORS 吗?
- javascript - 如何获取热门帖子 wordpress api wp-json v2
- python - 如何使用 xlwings 在 Excel 上以红色显示负值?
- cuda - 同一 GPU 的 MIG 之间的数据共享
- python - 使用具有多个条件、tres 日期和一个对象的 numpy/pandas 过滤 df
- tableau-api - Tableau - 每月客户总数
- javascript - 如何使用 %o 和 %O 使 Firefox 的控制台以不同的方式输出 dom 节点,就像 Chrome 所做的那样?
- objective-c - 模拟按键的代码不起作用,我在这里遗漏了什么吗?