首页 > 解决方案 > 在 python gae 上运行 selenium?

问题描述

我有一个带有使用 selenium 和 chrome 驱动程序的端点的烧瓶应用程序。我使用此代码来抓取 Angular 网站的网页,创建一个 json 并将其提供给客户端。

早些时候,这个网站很容易通过使用 BeautifulSoup 来抓取,我曾经将 json 和 put 操作的当前时间一起存储在数据存储中。这样做是为了我不会在每个客户端请求时抓取网站,并且一个函数可以确保在网站再次被抓取之前已经有 5 个小时了。

但是现在我必须使用 selenium,我想不出 selenium 如何在服务器上打开浏览器(因为它需要在我的本地机器上做任何事情)。我还研究了 chrome 的无头状态,但目前它仅适用于 node.js 服务器.

我现在看到的唯一选择是在我的本地机器上抓取网站,并在网站上每次生成新数据(准确的日期)时将 json 上传到 gae 数据存储区。有没有办法完全自动化这个过程?

标签: python-2.7seleniumgoogle-app-engine

解决方案


我能够在 GAE python 上运行无头硒,但我必须在 App Engine Flex 中完成。看到这个答案:

用于 GAE 的 Python 无头浏览器

“它需要在我的本地机器上做任何事情”是什么意思?


推荐阅读