首页 > 解决方案 > Pyspark:多个节点上的多线程

问题描述

我对 Pyspark 仍然很陌生,并尝试四处搜索,但找不到任何可以直接回答这个问题的东西。我正在运行一些工作来解码大量 URL,目前它在单个节点上是多线程的(默认情况下),只是想知道是否可以在每个节点内跨多个节点(spark + 多线程)进行多线程以进一步加速工作?我可以将多线程作为 Pyspark udf 函数的一部分吗?谢谢!

标签: multithreadingpyspark

解决方案


就像乔比说的那样,您能否提供一个更具体的示例/可重现的代码片段让我们更好地帮助您?

话虽如此, Spark 应用程序的FAIR 调度程序模式此视频是您阅读的良好开端。


推荐阅读