html - 从 nutch 以纯文本格式获取数据
问题描述
我正在使用 apache nutch 来抓取网站。当我使用readseg
命令读取段中的内容时,我得到的格式如下:
有没有办法以纯文本格式获取网络数据? 当我在解析文本上使用 readseg 命令时,我以这种方式得到
解决方案
该readseg
命令转储(默认情况下)从 URL 获取的原始内容。这是传输的整个 HTML 内容。如果要获取文本内容,则需要等到内容被解析后。这意味着您需要执行整个爬网周期(或./bin/nutch parse
命令)。
检查readseg
命令(https://wiki.apache.org/nutch/bin/nutch_readseg)上的不同选项,如果您已经在执行解析步骤,您可能只关心解析的内容,因此您可以避免打印所有内容别的。
推荐阅读
- couchdb - 如何从给定的 couchdb 数据库中检索最旧的“未删除”文档
- rubygems - bundle install --with development 也是从“test”和“production”组安装 gems
- python - 散景:CheckboxButtonGroup 的个别颜色
- performance - 如何在页面加载后导入第三方JS文件以获得良好的页面分数
- javascript - 如何通过单击输入标签周围的 + 和 - 按钮来增加和减少跨度标签中的添加?
- active-directory - Jupyterhub AD 集成错误:查找属性“sAMAccountName”时未找到用户条目
- laravel-livewire - 如何在 livewire 中实现 ajax .done
- angular - PrimeNG 设置轮播目录 - 从右到左
- linux - 从 v4l2 设备流式传输 MJPEG
- discord.js - 让不和谐的机器人自动加入服务器