selenium - 如何使用 Selenium 插件执行 Nutch?
问题描述
我正在尝试使用 selenium 插件运行 nutch,但由于我是初学者,因此无法了解如何执行 Nutch 或抓取网站。
根据所需的设置完成 xml 更改:
<property>
<name>plugin.includes</name>
<value>protocol-selenium|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|urlnormalizer-(pass|regex|basic)|scoring-opic</value>
<description>Regular expression naming plugin directory names to
include. Any plugin not matching this expression is excluded.
In any case you need at least include the nutch-extensionpoints plugin. By
default Nutch includes crawling just HTML and plain text via HTTP,
and basic indexing and search plugins. In order to use HTTPS please enable
protocol-httpclient, but be aware of possible intermittent problems with the
underlying commons-httpclient library.
</description>
我想用 selenium 执行 nutch 来测试有 javascript 的网页?
解决方案
推荐阅读
- sorting - 哈斯克尔。如何为合并排序中的每个排序元素打印数组
- flutter - 弹出页面时如何在Textfield中保留文本?
- python - ValueError: SymbolicConstant name ' ' 只能包含大写、数字或下划线
- google-apps-script - 无法忽略谷歌表格中的公式列
- c++ - 这是使用 C++ 模板元编程的有效方法吗?
- r - 在 magick_image_readpath 中出现致命错误后,R 会话中止
- php - 使用 docker-php-ext-enable 后如何禁用 php-ext?
- jmeter - 并发线程组
- neural-network - 解释导致ANN过拟合的学习率数据类型
- visual-studio-code - 错误代码尝试从不存在的源复制