apache - 大小 X 的内容被截断为 65536。Apache Nutch
问题描述
当我想抓取 url 时,Apache Nutch 中的 parse 命令有问题,我自己找到了解决方案。
在 Apache Nutch 中,在nutch/conf/nutch-default.xml中有一个默认配置,您可以找到带有名称的属性file.content.limit
并将默认值更改为您想要的任何值。
<property> <name>file.content.limit</name> <value>65536</value> <description>The length limit for downloaded content using the file:// protocol, in bytes. If this value is nonnegative (>=0), content longer than it will be truncated; otherwise, no truncation at all. Do not confuse this setting with the http.content.limit setting. </description> </property>
解决方案
推荐阅读
- python - Sympy - 从矢量、参考框架模块中获取标量
- javascript - 检测用户是否点击了 6 个 div id 元素中的任何一个
- reactjs - 使用 laravel api 从 react 上传图片
- r - R - 根据列名和行名提取子矩阵
- android - Android 与 Ubuntu 的蓝牙串行通信
- javascript - 尝试在 anular 上实现 jquery 时未定义 $
- javascript - 为什么 appendChild 会根据元素的顺序发生变化?
- c# - 为什么我在 C# 的 Nuget BigInteger 1.0.7 中出现 System.ArithmeticException?
- reactjs - Apollo 本地状态 - 如何通过 id 查询
- css - Flexbox:让项目扩展以填充行