首页 > 解决方案 > 为我的大学网站制作自定义 RSS 提要

问题描述

我的大学有一个发布公告的网站。我不能错过这些公告,同时,每天查看网站有点麻烦。该网站没有 RSS 提要。

公告发布在网页上,公告的 URL 格式如下:

http://example.com/news/detail/1/n

哪里n是公告ID,它是数字。

当有公告时,上述网页(例如http://example.com/news/detail/1/180)包含以下格式的公告:

            <div class="middleconten">    

              <h3>
              Title           </h3>

 11 October, 2019

              <p>
                             <a href='/some/link' target='_blank'>Click here for more details</a>             
              </p>  

            </div>

并且当没有公告时(即,当用户访问一个带有n值的网页时,该值与实际公告 ID 不对应,http://example.com/news/detail/1/1234567890,例如例如),网页如下:

            <div class="middleconten">    

              <h3>
                          </h3>

 1 January, 1970

              <p>

              </p>  

            </div>

如何为捕获<h3>值、href属性和日期的网站制作 RSS 提要?

标签: gorss

解决方案


您需要定期在网站上搜索新的新闻项目。您可以使用goquery来提取数据。

这个想法很简单。您需要从 1 开始生成新闻部分的 url(填写 的值n)并访问每个 url。如果你找到新闻(结构存在),存储数据。将值加 1 以n获取下一个 ID。如果 url 不包含新闻,则停止并存储最后成功新闻的编号/ID 的值。下次可以从这个ID开始,而不是从头开始。

比如我从 1 开始,我在 ID 32 找到最后一条成功的消息。我把它保存在某个地方。下次我可以从 33 而不是 1 开始。

当您拥有从网站提取的数据的数据库时,您可以从中发布您自己的 RSS 提要。您可以使用像chi和 gorilla feed这样的路由器来创建 rss feed。


推荐阅读