python - 如何分析 PySpark 的 python worker 内存?
问题描述
我有一个使用 PySpark 提取特征的应用程序,但该应用程序总是因错误而终止。
Container killed by YARN for exceeding memory limits. 14.4 GB of 14 GB physical memory used.
Consider boosting spark.yarn.executor.memoryOverhead.
在 Spark Web UI 中,它总是在 combineByKey 运算符处被杀死。
从 NodeManager 的日志中可以看出,python 工作进程使用了这么多内存。
但我从来没有为 python 工作者设置内存。从文档中有一个spark.python.worker.memory
默认设置为 512m,但是一个 python 工作进程使用了几乎 10g 内存,并且 yarn 杀死了容器。
为什么spark.python.worker.memory
设置不起作用?
谁能告诉我一些关于分析 python 工作者内存的参考?
非常感谢。
解决方案
推荐阅读
- python - Seaborn 错误:找不到“高度”,它去哪儿了?
- javascript - 具有异步加载选项卡内容的 Angular 选项卡组。内容必须是另一个组件
- python - Python,WebScraping天气值
- java - googleCast getMediaInfo() 每次返回空值
- c++ - Ncurses - 在初始化我的窗口之前等待按钮按下的空白窗口
- angular-material - Mat 图标浮动在输入的右侧,并且不以键入的文本为中心
- selenium - microsoft edge 和 safari 浏览器中未识别元素
- push-notification - 如何为 Google Assistant 增加 10 次/天的推送通知限制
- android - AlertDialog 变得无响应?
- python - 是否有任何 python 模块可以将密码安全地存储在 .conf/.txt 文件中?