首页 > 解决方案 > 在 pyspark api 中命中多个端点

问题描述

我有一个用 python 构建的 API,它可以访问多个端点,但现在我必须更改代码并将其放入 pyspark。例如,我点击了身份验证,然后我进行了搜索,然后我点击了另一个端点,在那里我收集了一些站点信息,然后我点击了我的最终端点,我开始将数据集拉入 pandas。是否有可能在 pyspark 中做同样的事情?我试过用 UDF 来做这件事,但是 pyspark 缺少很多功能。然后我试图将python代码保留在那里,但我开始陷入困境。

关于解决这个问题的最佳实践有什么想法吗?

标签: apache-sparkpyspark

解决方案


推荐阅读