首页 > 解决方案 > PySpark 把数据放到 https

问题描述

我有一个包含 250,000 个客户的数据的 spark 数据框 (PySpark)。现在我想将此数据发送到 HTTPS API(作为 JSON 文件)。实际的解决方案是使用 Python requests 包来发送数据,这对于一小组数据来说效果很好。但为此,我必须在一个节点上收集所有数据并从那里发送。

这个用例有更好的解决方案吗?我可以在每个节点上运行一个函数来将数据存储到 https api 吗?

非常感谢克里斯托夫

标签: apihttpspysparkput

解决方案


将数据帧转换为 rdd 然后调用 foreachPartition 或 foreach

def f(iterator):
    for x in iterator:
        #Implement the api call here
        print(x)

df.rdd.foreachPartition(f)

推荐阅读