hadoop - 将 hadoop 配置传递给 Nutch crawl 命令
问题描述
我希望能够在分布式模式下运行 Apache Nutch crawl 命令时指定映射器、减速器和作业队列的数量。这是我尝试过的,但不起作用:
runtime/deploy/bin/crawl -D mapreduce.map.memory.mb=4000 -D mapreduce.reduce.memory.mb=2000 -D mapred.job.queue.name=some-queue -i -D solr.server.url=http://http://my-solr-server:8983/solr/my-collection -s /user/me/seed /user/me/crawl-dir 1
如何将 hadoop 参数传递给命令?
解决方案
推荐阅读
- ios - 由于未捕获的异常“NSInvalidArgumentException”而终止应用程序,原因:“initWithAPIKey 异常:无效的 API 密钥格式”
- traefik - 试图让 Traefik 识别 CockroachDB 仪表板
- c# - 如何使用 NSubstitute 和 EventHandler 引发事件
? - c++ - const yaml-cpp 多次使用时节点变化
- ios - 我们可以在不安装应用程序的情况下将第三方服务集成到 Siri 中吗?
- python - 在 python 中使用制表打印多个 HTML 表
- algorithm - 算法分析-大O
- java - 从 Spring JdbcTemplate 的 queryForObject 方法返回泛型类型
- curl - jenkins 中的 CURL 命令失败
- spring - 春季休眠jpa多对多