1.解压安装包
Spark Scala Java
tar -zxvf 安装包路径
2. SSH免密登录
#安装ssh服务 sudo apt-get install openssh-server #启动ssh服务 sudo service ssh start #生成公私密钥 并把公钥发送到本机 ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
3.配置环境变量
配置环境变量
#修改配置文件 vim ~/.bashrc #-------------- #JAVA_HOME export JAVA_HOME=/自己的java安装路径 export PATH=${JAVA_HOME}/bin:$PATH export SCALA_HOME=/opt/Scala-2.11.12 export PATH=$PATH:$SCALA_HOME/bin export SPARK_HOME=/opt/spark-2.3.3-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH #使文件生效 source ~/.bashrc
4.修改Spark配置文件
cd /spark安装路径/conf cp spark-env.sh.template spark-env.sh cp log4j.properties.template log4j.properties cp slaves.template slaves
# 修改spark-env.sh设置主节点和从节点的配置 export JAVA_HOME=/ #添加Java位置 export SCALA_HOME=/#添加Scala位置 export SPARK_MASTER_IP=主机名 #设置主节点地址 export SPARK_WORKER_MEMORY=4g #设置节点内存大小,此处为4G。 export SPARK_WORKER_CORES=2 #设置节点参与计算的核心数 export SPARK_WORKER_INSTANCES=1 #设置节点实例数
5.测试是否安装成功
bin/pyspark
升级pip
pip install --upgrade pip
安装 pyspark
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark