首页 > 解决方案 > 从 nutch 以纯文本格式获取数据

问题描述

我正在使用 apache nutch 来抓取网站。当我使用readseg命令读取段中的内容时,我得到的格式如下:

有没有办法以纯文本格式获取网络数据? 当我在解析文本上使用 readseg 命令时,我以这种方式得到

标签: htmlhadoopweb-crawlerbigdatanutch

解决方案


readseg命令转储(默认情况下)从 URL 获取的原始内容。这是传输的整个 HTML 内容。如果要获取文本内容,则需要等到内容被解析后。这意味着您需要执行整个爬网周期(或./bin/nutch parse命令)。

检查readseg命令(https://wiki.apache.org/nutch/bin/nutch_readseg)上的不同选项,如果您已经在执行解析步骤,您可能只关心解析的内容,因此您可以避免打印所有内容别的。


推荐阅读