python - 当网络抓取链接时,Python 请求模块工作异常
问题描述
我一直在尝试使用 Python Requests 模块来获取特定页面的源代码,然后将其抓取以获取其上的特定链接。
现在,我得到了源代码就好了,但是当我尝试抓取链接时,它似乎打印了错误的东西。我检查了(通过打印我得到的页面的文本形式),猜猜在下载过程中,链接似乎发生了变化。最初,在网站上,链接的形式是something.something/5642001/8bc1fa,但现在在我使用Requests 获得的页面中,它已经变成了something.something/5642001/128a67。类似,是的,但我不知道为什么会发生这种变化。
这绝对不是动态 js 的情况(我认为),因为当我在浏览器本身中查看页面源时,链接就很好:只有在请求(或 urllib 就此而言,我也尝试过)获取时才会出现问题那个页面给我。
对于解决此问题,我非常感谢一些帮助。
图一:链接的原始受影响部分,如我浏览器中的页面源所示。这是对的。
图二:当 Requests 为我获取整个页面时,相同的情况如何。严重困惑。
解决方案
推荐阅读
- python - 如何从python文本文件中的字典中删除那些不属于城市的关键字?
- android - 在浮动操作按钮上方放置一个视图
- r - R:混淆矩阵表示分类方法1最好,ROC表示方法2
- php - Laravel 模型函数以字符串形式获取相关实体描述
- azure - 应用洞察为自定义属性添加系列
- mysql - 如何在 Django 中获取 MongoDB 连接对象?
- javascript - 使用 jQuery 时,类型范围在 IE11 中不起作用
- angular - Angular2 在 *ngFor 中如何添加两个值
- python - 在 python 2.7 中为其属性排除一个元素
- s4sdk - 无法使用 s4sdk 对 Odata 服务执行删除操作