java - 在 Spark 中使用 Scala 内核
问题描述
我在从 Spark 访问 S3 数据时遇到问题。我已经spylon-kernel
安装了JupyterHub
(这是带有 Spark 框架集成的 Scala 内核)。它使用pyspark
. 不幸的是,最新的 pyspark 仍然使用hadoop-2.7.3
库。当我尝试访问法兰克福地区的 S3 存储桶时,出现以下 Java 异常:
“ com.amazonaws.services.s3.model.AmazonS3Exception:状态代码:400,AWS 服务:Amazon S3,AWS 请求 ID:xxxxxxxxxx,AWS 错误代码:null,AWS 错误消息:错误请求”
从我的研究来看,这似乎是个hadoop 2.7.3
问题。对于较新的版本(3.1.1)
,它在本地运行良好,但pyspark
使用这些hadoop 2.7.3
jar 并且看起来无法更改。我能做点什么吗?也许有一些方法可以告诉pyspark
使用hadoop 3.1.1
罐子?或者,也许还有其他带有 Spark 的 Scala 内核Jupyterhub
用于spark-shell
代替pyspark
?
解决方案
好的,我终于修好了......我会发布一个答案,也许它会对某人有用。
pip install toree
jupyter toree install --spark_home /path/to/your/spark/ --interpreters=Scala
这个有效!:)
推荐阅读
- javascript - Why Is This "OnScroll" JavaScript Function Not Being Called?
- powershell - 查找外部角色的成员
- python - 使用 Python 的 BigQuery 动态 SQL
- git - git rebase 被错误的先前合并阻止 - 可以修复吗?
- android - 如何在不禁用可折叠设备支持的情况下禁用 resizeableActivity
- python - 在 Python 中寻找关于如何让我的 while 循环中断的建议
- python - 电源中遇到的无效值
- javafx - 如何使 JavaFX 窗格适应其内容的大小?
- java - 横幅广告事件 (java)
- javascript - Discord.js 每个命令都有不同的 js 文件