首页 > 解决方案 > 如何解决“pyspark”无法识别... Windows 上的错误?

问题描述

我已经尝试在我的 Windows 10 机器上安装 Spark (pyspark) 已经有两个星期了,现在我意识到我需要你的帮助。

当我尝试在命令提示符中启动 'pyspark' 时,我仍然收到以下错误:

问题

'pyspark' 不是内部或外部命令、可运行程序或批处理文件。

对我来说,这暗示了路径/环境变量的问题,但我找不到问题的根源。

我的行动

我尝试了多个教程,但我发现最好的是Michael Galarnyk的教程。我一步一步按照他的教程进行操作:

这些操作应该可以解决问题,但是当我运行时pyspark --master local[2],我仍然从上面得到错误。您能否使用上面的信息帮助追查此错误?

检查

我在命令提示符下运行了几次检查以验证以下内容:

标签: pythonapache-sparkpyspark

解决方案


我通过将变量设置为“系统变量”而不是“用户变量”解决了这个问题。笔记

  1. 在我的情况下,从命令行设置变量会导致“用户变量”,所以我必须使用高级设置 GUI 将值输入为“系统变量”
  2. 您可能想排除任何安装问题,在这种情况下尝试 cd 进入 C:\opt\spark\spark-2.3.1-bin-hadoop2.7\bin 并运行pyspark master local[2](确保 winutils.exe 在那里);如果这不起作用,那么您还有其他问题,而不仅仅是 env 变量

推荐阅读