azure - Databricks / Spark 错误 - 依赖项更新?
问题描述
我对databricks
. 我不断收到一个错误(几乎是随机的 - 我的代码本身似乎不是问题),只能通过重新启动集群来解决。错误是:
org.apache.spark.SparkException:作业因阶段失败而中止
...
org.apache.spark.SparkException:在依赖项更新期间无法获取 spark://10.100.52.23:37487/files/packages.tar
有没有人见过这个?请问您有机会知道为什么会这样吗?
我的代码是用 R 编写的,并且我xgboost
在集群上安装了包。我认为这是唯一不包含在默认值中的库。
解决方案
与 Microsoft 提出的票证及其工程团队的回应如下所示。
spark_apply() 函数将用户代码(闭包)捆绑在一个名为 package.tar 的文件中。当有多个 sparklyr 作业时,一些执行者可能会在无权访问捆绑文件时被分配一个任务。
这需要在上游 sparklyr 中解决,以便在此处为捆绑文件使用唯一名称。我们向 Sparklyr 社区提交了一个问题,在此处进行跟踪。https://github.com/sparklyr/sparklyr/issues/2244。
所以这似乎是一个已知问题,目前我们的团队将修复这个错误,但这需要一些时间。
推荐阅读
- java - 如何从网络中获取价值并将其转换为整数
- java - Google App Engine 上 Spring Boot 应用程序的 Maven 配置文件
- sql-server - 如何在 mssql 中将 NVARCHAR 转换为 BIT
- python - Python 如何发出 HTTP GET 请求
- gradle - 如何在 gradle.build 中添加模块依赖项
- jquery - 如何以可读的方式查看 Jquery 文件?
- haskell - 根据元素过滤 3(或更多)元组列表
- ios - 异常“NSRangeException”,原因:“*** -[__NSArray0 objectAtIndex:]:索引 0 超出了空 NSArray 的范围”
- java - 如何使用可运行接口在多线程环境中创建 webdriver
- r - 使用 jsonlite 导入 json 会导致错误