python - 使用请求在 Python 中不使用 Javascript 进行网页抓取
问题描述
所以,我正在制作一个 Python 脚本,它获取网页内容并将其与之前保存的版本进行比较,以查看网页是否已更改。我正在使用这种方法获取原始内容:
def getcontent(url):
str = requests.get(url)
str = str.text
return(str)
在那之后,我正在清理内容和引用转义等,但这无关紧要。我一直遇到的问题是,网页有一些 JavaScript 代码,它会生成我的方法下载的唯一密钥。每次抓取网页内容,key都不一样。我对那把钥匙的用途一无所知。问题是,如果密钥不同,新内容和保存的内容就不一样了。
当我请求网页时,如何禁用 JavaScript 运行?
解决方案
令牌是在服务器端生成的,可以用于各种原因(例如 CSRF-token)
令牌将始终在您的响应内容中,不需要 JavaScript。
您应该找到一种忽略/删除令牌的方法。
推荐阅读
- c - 如何检查输入的符号是否为char?
- java - 如何确定一个 int 是否是完美的正方形?
- java - O(n)中数组的查找模式
- java - 如何使用 JWebBrowser 禁用 PDF 打印选项
- google-apps-script - 设置公式时更新宏以使用工作表数据
- apache-kafka - Kafka 在崩溃后重新启动后如何识别组中的消费者
- python - YOLO 模型训练错误 - raise source.error(msg, len(this) + 1 + len(that)) sre_constants.error: bad character range 5-2 at position 72
- batch-file - 在不知道所述目录名称的情况下打开多个目录并使用 Windows 批处理文件删除其中的文件夹
- javascript - 我如何在javascript中访问reducer的累加器
- google-custom-search - 自定义搜索 API 未返回所有结果