首页 > 解决方案 > 如何使用 crawler4j 添加(集成) crawljax?

问题描述

我正在研究网络爬虫,它使用 crawler4j 从网站获取数据,一切顺利,但主要问题是基于 ajax 的事件。所以,我发现 crawljax 库确实很重要,但我不知道何时何地使用它。

我什么时候使用它(我的意思是工作序列)?

或者

或者

标签: web-crawlergoogle-crawlerscrawler4j

解决方案


crawljax基本上是一个用于其自身目的的爬虫。集成到crawler4j您需要大量的手动工作。

我建议您在 . 前面使用Selenium和/或CasperJS和/或PhantomJScrawler4j的组合,即您可以将 JavaScript 引擎作为代理运行在crawler4j. 但是,这会降低您的网络爬虫的性能


推荐阅读