api - PySpark 把数据放到 https
问题描述
我有一个包含 250,000 个客户的数据的 spark 数据框 (PySpark)。现在我想将此数据发送到 HTTPS API(作为 JSON 文件)。实际的解决方案是使用 Python requests 包来发送数据,这对于一小组数据来说效果很好。但为此,我必须在一个节点上收集所有数据并从那里发送。
这个用例有更好的解决方案吗?我可以在每个节点上运行一个函数来将数据存储到 https api 吗?
非常感谢克里斯托夫
解决方案
将数据帧转换为 rdd 然后调用 foreachPartition 或 foreach
def f(iterator):
for x in iterator:
#Implement the api call here
print(x)
df.rdd.foreachPartition(f)
推荐阅读
- java - 如何知道新的 jar 依赖项
- excel - 将焦点从 Outlook 更改为 Excel
- latex - 带标签的文本(很像带标签的方程式)
- python - 将多列从行旋转到列
- reactjs - 使用 TypeScript 将具有类型字段的数据对象映射到特定的 React 组件
- python - 如何将文本文件解析为python中的列表
- python - 如何将空格分隔的数据读入numpy数组?
- postgresql - 如何在 PostgreSQL 中进行 DML 操作时获取索引是否更新的统计信息?
- applescript - 获取文件别名的原始项目的路径,当它丢失时
- java - 哪个 Jakarta ee 版本与 Java 10 兼容?