首页 > 解决方案 > 在 Nutch 中配置 RAM

问题描述

我正在使用 Nutch 1.10 为我的组织抓取网站。我使用具有 16Gb RAM 的系统来执行此爬取。截至目前,我的 nutch 文件在爬取数据时仅使用 3-4Gb 的 RAM,完成它需要将近 10 个小时。有什么方法可以让我将 nutch 配置为使用超过 12Gb 的 RAM 来完成相同的任务?欢迎所有建议!

标签: nutchnutch2

解决方案


假设脚本 bin/nutch 或 bin/crawl 用于本地模式(无 Hadoop 集群)爬取:环境变量NUTCH_HEAPSIZE定义堆大小(MB)。


推荐阅读