apache-spark - 在 pyspark api 中命中多个端点
问题描述
我有一个用 python 构建的 API,它可以访问多个端点,但现在我必须更改代码并将其放入 pyspark。例如,我点击了身份验证,然后我进行了搜索,然后我点击了另一个端点,在那里我收集了一些站点信息,然后我点击了我的最终端点,我开始将数据集拉入 pandas。是否有可能在 pyspark 中做同样的事情?我试过用 UDF 来做这件事,但是 pyspark 缺少很多功能。然后我试图将python代码保留在那里,但我开始陷入困境。
关于解决这个问题的最佳实践有什么想法吗?
解决方案
推荐阅读
- wpf - WPF ItemList ItemTemplate 边框问题
- python - 无类型下落不明
- javascript - 如何通过使用alpine js单击一个复选框来选中和取消选中所有复选框
- python - 列表乘法列表与列表
- cmake - CMake 不会为 IMPORTED_IMPLIB 生成规则
- javascript - 如何在特定事件中自定义电子边框?
- mysql - 如果列大于某个值,则更新列
- angular - 使用 ag-grid,每当相邻单元格的 cellValueChanged 事件触发时,如何设置单元格的值?
- javascript - 从父组件 React 渲染 HTML
- c++ - 带有三个参数的 typedef 是什么意思?