nutch - 在 Nutch 中配置 RAM
问题描述
我正在使用 Nutch 1.10 为我的组织抓取网站。我使用具有 16Gb RAM 的系统来执行此爬取。截至目前,我的 nutch 文件在爬取数据时仅使用 3-4Gb 的 RAM,完成它需要将近 10 个小时。有什么方法可以让我将 nutch 配置为使用超过 12Gb 的 RAM 来完成相同的任务?欢迎所有建议!
解决方案
假设脚本 bin/nutch 或 bin/crawl 用于本地模式(无 Hadoop 集群)爬取:环境变量NUTCH_HEAPSIZE
定义堆大小(MB)。
推荐阅读
- c++ - 如何确保模板参数具有 value_type 并且是可迭代的?
- javascript - 当我点击 youtube 图标时,我会做什么,它会将我带到 www.google.com
- html - 为什么页脚没有归档全屏宽度 html/Bootstrap 5
- python - 使用 Python 反转数字中的位
- python - 我得到了 IndexError: Target 3 is out of bounds。在线损失中从 CNN 模块制作模型时出错 = loss_fn(outputs, labels)
- sql - 如何使用 postgres 10 将最新的 2 行加入到视图中
- flutter - flutter_admob 如何与 IOS swift 集成
- python - 将日期时间字符串转换为日期时间对象 python
- sql-server - 自动化 Azure SQL Server 数据库恢复
- angular - 模态确认后刷新屏幕(Angular)