apache-spark - 无法在 Azure Databricks 提供的 Spark 群集中导入已安装的 Python 模块
问题描述
我刚刚开始通过 Azure Databricks 中提供的 spark 集群运行 python 笔记本。作为要求,我们通过 shell 命令以及 databricks 工作区中的“创建库”UI 安装了几个外部包,如 spacy 和 kafka。
python -m spacy 下载 en_core_web_sm
但是,每次我们运行 'import' 时,集群都会抛出 'Module not found' 错误。
最重要的是,我们似乎无法确切知道这些模块的安装位置。尽管在“sys.path”中添加了模块路径,问题仍然存在。
请让我们知道如何尽快解决此问题
解决方案
安装 spacy "en_core_web_sm" 模型为
%sh python -m spacy download en_core_web_sm
将模型导入为
import en_core_web_sm
nlp = en_core_web_sm.load()
doc = nlp("My name is Raghu Ram. I live in Kolkata.")
for ent in doc.ents:
print(ent.text, ent.label_)
推荐阅读
- fltk - FLTK 窗口的圆角
- python - 在 Pycaret 中选择要规范化的特定列
- c# - 在 C# 中为电子邮件模板实现对象匹配
- python - mypy:“Optional[Mapping[Any, Any]]”类型的值不可索引
- r - 将矩阵中的多个列值求和并折叠成具有更少列的新矩阵(使用 R)
- c++ - 模板类构造函数中的 static_assert
- python-3.x - 尝试在 jupyter notebook 中使用 pip3 安装 pandas 包时收到错误消息
- powershell - Try-Catch 在通过 powershell 调用 exe 时不起作用
- php - 如何在 php 中生成集成 grcode
- javascript - 我有两个数组(1 个数字数组 + 1 个字符串数组)。我怎样才能以完全相同的方式对它们进行排序?