apache-spark - 在 PySpark 中编写增量表时如何使用 Zorder 聚类?
问题描述
我正在尝试编写一个非常大的 PySpark 数据帧,遵循我在https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-中看到的建议delta.html
但是,此页面在 Scala 中显示了建议,我不知道如何将其转换为 PySpark
我看到这样的 Scala 代码:
spark.read.table(connRandom)
.write.format("delta").saveAsTable(connZorder)
sql(s"OPTIMIZE $connZorder ZORDER BY (src_ip, src_port, dst_ip, dst_port)")
但是我怎么能做第二行的等价物,比如在 PySpark 的特定列“my_col”上的 zorder 集群?
解决方案
第二行是 Scala 给出的 SQL 命令。你可以在 python 中使用spark.sql("OPTIMIZE tableName ZORDER BY (my_col)")
.
另请查看文档,它有一个完整的 PySpark 笔记本示例。
推荐阅读
- spectrogram - Librosa CQT:为什么这些简单的正弦波不能整齐地落入它们的频率区间?
- c++ - 如何使用 Cmake 构建基于 Qt 远程对象的项目
- qt - 孙子打破中继器
- javascript - 如何在方法中获取更新状态?(反应和还原)
- python - Python Pandas:寻找一种有效的方法来重构这个 Dataframe
- web-services - 将 Serilog 日志发布到 Rest api
- square-connect - 如果我在网站上添加订单,最新的 API 是否会将订单推送到我的商店的 POS 终端?
- python - 如何在 Qtablewidget Python 中设置自定义键盘按键事件?
- javascript - 通过变量获取对象的多维值
- javascript - 反应:为什么任务没有出现?