azure - Databricks / Spark 错误

我对databricks. 我不断收到一个错误（几乎是随机的 - 我的代码本身似乎不是问题），只能通过重新启动集群来解决。错误是：

org.apache.spark.SparkException：作业因阶段失败而中止

...

org.apache.spark.SparkException：在依赖项更新期间无法获取 spark://10.100.52.23:37487/files/packages.tar

有没有人见过这个？请问您有机会知道为什么会这样吗？

我的代码是用 R 编写的，并且我xgboost在集群上安装了包。我认为这是唯一不包含在默认值中的库。

标签： azureapache-sparkdatabricksazure-databricks

与 Microsoft 提出的票证及其工程团队的回应如下所示。

spark_apply() 函数将用户代码（闭包）捆绑在一个名为 package.tar 的文件中。当有多个 sparklyr 作业时，一些执行者可能会在无权访问捆绑文件时被分配一个任务。

这需要在上游 sparklyr 中解决，以便在此处为捆绑文件使用唯一名称。我们向 Sparklyr 社区提交了一个问题，在此处进行跟踪。https://github.com/sparklyr/sparklyr/issues/2244。

所以这似乎是一个已知问题，目前我们的团队将修复这个错误，但这需要一些时间。

azure - Databricks / Spark 错误 - 依赖项更新？