python - 从 Jupyter Notebook 运行 Spark/Python
问题描述
我创建了 shell 脚本来从 Jupyter 笔记本访问 PySpark。当我运行脚本时,我在下面收到此错误。
sudo /home/scripts/jupyspark.sh test.py
**/home/scripts/jupyspark.sh: line 6: /bin/pyspark: No such file or directory**
这是我的 jupyspark 脚本
#!/bin/bash
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS="notebook --NotebookApp.open_browser=True --NotebookApp.ip='localhost' --NotebookApp.port=8888"
${SPARK_HOME}/bin/pyspark \
--master local[4] \
--executor-memory 1G \
--driver-memory 1G \
--conf spark.sql.warehouse.dir="file:///tmp/spark-warehouse" \
--packages com.databricks:spark-csv_2.11:1.5.0 \
--packages com.amazonaws:aws-java-sdk-pom:1.10.34 \
--packages org.apache.hadoop:hadoop-aws:2.7.3
我也做了这个步骤:
cat ~/.bash_profile
export SPARK_HOME=/usr/local/spark
export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH
export HADOOP_HOME=/usr/local/hadoop
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native/:$LD_LIBRARY_PATH
export AWS_ACCESS_KEY_ID='MY_ACCESS_KEY'
export AWS_SECRET_ACCESS_KEY='MY_SECRET_ACCESS_KEY'
您对如何解决这个问题有任何想法吗?
解决方案
推荐阅读
- jms - Artemis MQ 发送方如何获得接收确认
- python - 如何将特定的熊猫数据框项目组合成一个项目
- perl - perl 使用环境变量启动外部程序
- javascript - 我想停止提交整个页面并仅使用 javascript 提交我的表单
- reactjs - 为什么在 NextJS 中首次渲染时 withRouter router.query 为空?
- openapi-generator - 如何使用 openAPI Generator 和 Maven 跳过支持和元数据文件的生成?
- python - 查询数据端显示在表格html烧瓶中
- java - 如何将具有相同前缀uri的映射重载到Spring中的不同方法?
- python - 更改 QTreeView 选择时触发的适当事件是什么?
- c# - 在 Skype-for-business(Lync) 中打开用户