首页 > 解决方案 > 寻找自动从 CMS 中抓取值以构建报告的最佳方法

问题描述

第一篇文章,所以对我放轻松:)

情况是我正试图从基于网络的(客户)CMS(客户管理系统)中抓取信息,上面有销售信息,然后将这些值输入到 Excel 或 Google 工作表中以最终构建报告,从而节省手动翻阅所有错误的时间/错误。

我记得曾经使用过一个解决方案(多个工具),它基本上会遍历页面并从这些页面上定义的字段中获取值,然后将这些信息放入工作表上的列中,然后我们将手动操作。我很确定它是基于 python 的,并且(我认为)使用 tampermonkey 扩展来获取关于 chrome 的开发/调试器版本的信息。

这个过程看起来像这样:

任何人都对如何完成这项工作有任何想法,或者任何人都知道针对这种特定类型任务的任何指南?尝试尽可能地自动化这一点 - 在此先感谢。

标签: pythonexcelgoogle-sheetstampermonkey

解决方案


Python 应该是一个不错的选择,因为它为您提供了许多不同的工具。根据 CMS 的功能,您可以选择不同的软件包。

简单的 HTML 抓取

对于静态 HTML 内容的简单抓取,scrapyBeautiful Soup就足够了。

抓取包括可执行内容

对于这些情况,您可以使用Selenium,您可以将其与 Beautiful Soup 结合使用。有关更多详细信息,请参阅此相关问题问题。


推荐阅读