首页 > 解决方案 > 在 Python/PySpark 中找不到模块“preproc”

问题描述

我正在尝试遵循本教程:https ://runawayhorse001.github.io/LearningApacheSpark/textmining.html

我已将数据加载到 PySpark DataFrame 中,但是当我进入预处理步骤时,我收到错误消息“ModuleNotFoundError: No module named 'preproc'” 我在网上找不到任何关于 pip install 的信息以便能够使用 preproc 模块。

!pip install preproc 在 Jupyter 笔记本中返回,“默认为用户安装,因为正常的站点包不可写警告:pip 正在由旧的脚本包装器调用。这将在 pip 的未来版本中失败。请参阅https:/ /github.com/pypa/pip/issues/5599获取有关修复潜在问题的建议。为避免此问题,您可以使用“-m pip”调用 Python,而不是直接运行 pip。错误:找不到满足要求 preproc(来自版本:无)错误:未找到 preproc 的匹配分发“

python -m pip install preproc 在 cmd 中返回,“错误:找不到满足 preproc 要求的版本(来自版本:无)错误:找不到 preproc 的匹配分发”

如何继续查找要安装的正确软件包?

标签: pythonpysparktext-classification

解决方案


向教程创建者发送电子邮件,并将他的回复发布给将来需要帮助的任何人。

“preproc 模块是为预处理功能设计的,例如 check_blanns、check_lang、remove_features 等。如果明确包含这些功能,则不需要导入 preproc 模块。”


推荐阅读