首页 > 解决方案 > 我正在开发自己的搜索引擎。如何使用其他门户内容?

问题描述

我打算创建一个新网站,作为自行车的集中搜索引擎。这个想法是访问者可以在我的网站上执行搜索,然后从那里的其他几个门户网站获得报价。像 swoodoo、skyskanner 等用于飞行但用于自行车的东西。

如果它们不提供公共 api,那么查询其他门户(使用 java)的最佳方法是什么?我正在使用的“最佳”选项是向每个门户发送硬编码的 GET 或 POST 请求,然后使用它们的响应,但这似乎很难维护,根本不是一个好的选择。

您可以指出我的任何提示或阅读材料吗?

标签: javaresthttp

解决方案


所以从我的角度来看,你有两个选择:

  • 查询公共 API 以获取所需数据
  • 为数据规划站点

最好的选择会有所不同,如果您感兴趣的网站有一个公共 API,您可以查询该 API 以获取信息。我怀疑很多网站都有这个。

因此,第二个选项是两个站点以获取您感兴趣的信息。如果您选择此选项,请注意,每次您抓取的站点都会更改 HTML 结构 ID、类等。您的抓取功能可能需要维护.

因此,通过选择此选项,请注意您需要持续维护您的抓取程序!

这是一个解释什么是抓取以及如何完成抓取的链接:https ://www.youtube.com/watch?v=vsmxMLmroyQ

这不是 Java 特定的,但您可以将其映射到 Java。


推荐阅读