首页 > 解决方案 > 无法在 Azure Databricks 提供的 Spark 群集中导入已安装的 Python 模块

问题描述

我刚刚开始通过 Azure Databricks 中提供的 spark 集群运行 python 笔记本。作为要求,我们通过 shell 命令以及 databricks 工作区中的“创建库”UI 安装了几个外部包,如 spacy 和 kafka。

python -m spacy 下载 en_core_web_sm

但是,每次我们运行 'import' 时,集群都会抛出 'Module not found' 错误。

OSError:找不到模型“en_core_web_sm”

最重要的是,我们似乎无法确切知道这些模块的安装位置。尽管在“sys.path”中添加了模块路径,问题仍然存在。

请让我们知道如何尽快解决此问题

标签: apache-sparkazure-databricks

解决方案


安装 spacy "en_core_web_sm" 模型为

    %sh python -m spacy download en_core_web_sm

将模型导入为

    import en_core_web_sm
    nlp = en_core_web_sm.load()
    doc = nlp("My name is Raghu Ram. I live in Kolkata.")
    for ent in doc.ents:
      print(ent.text, ent.label_)

推荐阅读