apache-spark - 在 HDIinsight 集群上运行 spark 作业时如何解决此致命错误?会话 681 意外地达到了“死亡”的最终状态。查看日志:
问题描述
我在 HDIcluster 上运行 pyspark 代码并收到此错误:
代码因致命错误而失败:会话 681 意外达到最终状态“死亡”。查看日志:
我没有 YARN 或 Hadoop 方面的经验。我尝试了堆栈溢出中提供的几个链接。但他们都没有帮助。一件奇怪的事情是我昨天能够运行相同的代码而没有出现该错误。
我刚刚运行了这个导入
from pyspark.sql import SparkSession
这是我得到的错误:
19/06/21 20:35:35 INFO Client:
client token: N/A
diagnostics: [Fri Jun 21 20:35:35 +0000 2019] Application is Activated, waiting for resources to be assigned for AM. Details : AM Partition = <DEFAULT_PARTITION> ; Partition Resource = <memory:819200, vCores:240> ; Queue's Absolute capacity = 50.0 % ; Queue's Absolute used capacity = 99.1875 % ; Queue's Absolute max capacity = 100.0 % ;
ApplicationMaster host: N/A
ApplicationMaster RPC port: -1
queue: default
start time: 1561149335158
final status: UNDEFINED
tracking URL: https://mmsorderpredhdi.azurehdinsight.net/yarnui/hn/proxy/application_1560840076505_0062/
user: livy
19/06/21 20:35:35 INFO ShutdownHookManager: Shutdown hook called
19/06/21 20:35:35 INFO ShutdownHookManager: Deleting directory /tmp/spark-bb63c5f0-7579-4456-b32a-0e643ca97ecc
YARN Diagnostics:
Application killed by user..
问题:队列的绝对已用容量有什么需要处理的吗?
解决方案
您能否检查日志以找到确切的问题?
我在哪里可以找到日志文件?
在 Azure HDInsight 群集上,您可以通过使用 SSH 连接到其中一个头节点并在此路径下载文件来找到 livy 日志。
hdfs dfs -ls /app-logs/livy/logs-ifile
有关详细信息,请参阅“在基于 Linux 的 HDInsight 上访问 Apache Hadoop YARN 应用程序日志”
此外,您可以参考“<a href="https://stackoverflow.com/questions/45235515/how-to-start-sparksession-in-pyspark">如何在 pyspark 中启动 sparksession”。
希望这可以帮助。
推荐阅读
- docker - 用于 docker 容器的谷歌云运行以及作为谷歌云存储桶的共享文件夹
- ios - Lyft SDK DeepLinking 未预先填写接送地点
- javascript - 如何使用 Firebase Google 登录获取已登录用户的属性?
- .htaccess - 将子域重定向到我的主域中的页面而不更改 url
- azure - 启用 Azure AD 身份验证后无法访问我的网站
- google-api - 将 google 目录组 API 限制为调用者自己的组
- c++ - 避免在构造函数中分配或保持简单性(和 RAII?)
- typescript - 打字稿无法检测相交函数中的参数类型
- android - 为什么初始化 gradle 不起作用?
- assembly - CMOVcc 是否被视为分支指令?