首页 > 解决方案 > 如何使用 MRJob 在 Hadoop 集群中运行 Python 库?

问题描述

我有一个load.file.py使用Bio库来读取基因序列的 python 文件。

from mrjob.job import MRJob
from Bio import SeqIO

我在伪分布式模式下使用 Hadoop,当我使用以下命令运行代码时:

python load_file.py hdfs://localhost:9000/user/username/input/data.fna -r hadoop

但它无法运行并在stderr文件中给我这个错误:

File "load_file.py", line 2, in <module>
    from Bio import SeqIO
ModuleNotFoundError: No module named 'Bio'

如何在 Hadoop 集群中安装该库以便它可以运行我的代码?mrjob 我确实使用文档中的字数统计教程测试了我的设置,它运行正常。

标签: pythonhadoopmrjob

解决方案


推荐阅读