首页 > 解决方案 > 大小 X 的内容被截断为 65536。Apache Nutch

问题描述

当我想抓取 url 时,Apache Nutch 中的 parse 命令有问题,我自己找到了解决方案。

在 Apache Nutch 中,在nutch/conf/nutch-default.xml中有一个默认配置,您可以找到带有名称的属性file.content.limit并将默认值更改为您想要的任何值。

<property>
  <name>file.content.limit</name>
  <value>65536</value>
  <description>The length limit for downloaded content using the file://
  protocol, in bytes. If this value is nonnegative (>=0), content longer
  than it will be truncated; otherwise, no truncation at all. Do not
  confuse this setting with the http.content.limit setting.
  </description>
</property>

标签: apachesolrnutch

解决方案


推荐阅读