首页 > 解决方案 > 与 VS Code Notebooks 配合使用的 Python 和 Spark 版本

问题描述

我正在为 AWS Glue 开发脚本,并尝试在此处模仿开发环境尽可能接近他们的规格。由于运行 Notebook 服务器/开发端点的成本有点高,因此我将所有内容都设置在本地计算机上,并在 VS Code Notebook 上开发脚本,因为它很有用。

由于安装的 Python 和 Spark 之间的版本不兼容,Notebook 设置存在一些问题。

而且它不起作用!错误是TypeError: an integer is required (got type bytes)

我四处搜索,人们说使用 降级到 Python 3.7 pyenv,我安装了 3.7.7 但仍然有同样的错误

作为最后的手段,我尝试了pip install pyspark. 它是 Spark 3.0.0,工作正常,但不如预期。

希望有人有这方面的经验

标签: amazon-web-servicesapache-sparkpysparkaws-glue

解决方案


更好的方法是在 docker 上安装胶水依赖项,然后使用 VS 代码 ssh 到该 docker 容器中,以模仿精确的胶水本地开发环境。

如果您想参考,我已经写了一个相同的博客

https://towardsdatascience.com/develop-glue-jobs-locally-using-docker-containers-bffc9d95bd1


推荐阅读