multithreading - Pyspark:多个节点上的多线程
问题描述
我对 Pyspark 仍然很陌生,并尝试四处搜索,但找不到任何可以直接回答这个问题的东西。我正在运行一些工作来解码大量 URL,目前它在单个节点上是多线程的(默认情况下),只是想知道是否可以在每个节点内跨多个节点(spark + 多线程)进行多线程以进一步加速工作?我可以将多线程作为 Pyspark udf 函数的一部分吗?谢谢!
解决方案
就像乔比说的那样,您能否提供一个更具体的示例/可重现的代码片段让我们更好地帮助您?
话虽如此, Spark 应用程序的FAIR 调度程序模式和此视频是您阅读的良好开端。
推荐阅读
- java - 在将文件从源复制到目标时保留文件的上次修改日期时间
- android - 带有 TensorflowLite 的 Kotlin Multiplateform
- flutter - 我不能在颤振网络上使用 svg 我该怎么做?
- javascript - 为什么拒绝和抛出的处理方式与 Promise.all 中的异步函数不同?
- android - 如何在 Glide 中为 Recyclerview 预加载图像
- react-native - 创建导航器不带参数
- python - 如何在不知道其位置的情况下从 2D Numpy 数组中删除元素
- javascript - 通过类或名称获取嵌套子元素的父元素
- bash - awk 打印有条件的第一行
- oracle - 在 PL SQL 中解析 JSON 数组 APEX_JSON