apache-spark - Pyspark 中的并行处理
问题描述
我有一个包含 500 万个项目的大型数据集,包括它们的 ID、成本等。我一直在 Pyspark shell 中使用 sqlContext 来加载 JSON 并创建一个数据框,最后在该数据框上应用所有必需的操作。
我是 spark 新手并且有一个查询,每当我对我的数据框执行操作时,无论是内置函数(例如,使用 sqlContext.read.json(filePath) 加载 JSON)还是使用 udf,它是自动多线程的还是我是否需要明确指定某些内容以使其成为多线程?如果是多线程的,如何查看和更改当前正在使用的线程数?
解决方案
推荐阅读
- java - 在 Java 2D 中渲染文本轮廓
- spring - 如何在控制器内模拟rest api调用
- apache-flink - Flink:从 Kinesis 读取导致 ReadProvisionedThroughputExceeded
- discord.py - 如何使嵌入粗体中的几个单词和其余正常文本?另外,如何在机器人消息中添加反应按钮?
- c# - 为什么 Blazor wasm 应用程序中的 CSharpCompilation.GetDiagnostics 方法在异步方法中使用时会抛出 System.PlatformNotSupportedException?
- winapi - Win32 函数成功后如何从 PWSTR 中检索字符串?
- macos - Rosetta 下的运行时库崩溃
- c++ - 如何在 lambda 捕获列表中创建指针?
- javascript - 如何使用嵌套对象的地图准确呈现两个复选框?
- ios - iOS - 让本地通知启动 URL