首页 > 解决方案 > 使用请求在 Python 中不使用 Javascript 进行网页抓取

问题描述

所以,我正在制作一个 Python 脚本,它获取网页内容并将其与之前保存的版本进行比较,以查看网页是否已更改。我正在使用这种方法获取原始内容:

def getcontent(url):
    str = requests.get(url)
    str = str.text
    return(str)

在那之后,我正在清理内容和引用转义等,但这无关紧要。我一直遇到的问题是,网页有一些 JavaScript 代码,它会生成我的方法下载的唯一密钥。每次抓取网页内容,key都不一样。我对那把钥匙的用途一无所知。问题是,如果密钥不同,新内容和保存的内容就不一样了。

当我请求网页时,如何禁用 JavaScript 运行?

标签: pythonhtmlwebweb-scrapingpython-requests

解决方案


令牌是在服务器端生成的,可以用于各种原因(例如 CSRF-token)

令牌将始终在您的响应内容中,不需要 JavaScript。

您应该找到一种忽略/删除令牌的方法。


推荐阅读