首页 > 解决方案 > 当网络抓取链接时,Python 请求模块工作异常

问题描述

我一直在尝试使用 Python Requests 模块来获取特定页面的源代码,然后将其抓取以获取其上的特定链接。

现在,我得到了源代码就好了,但是当我尝试抓取链接时,它似乎打印了错误的东西。我检查了(通过打印我得到的页面的文本形式),猜猜在下载过程中,链接似乎发生了变化。最初,在网站上,链接的形式是something.something/5642001/8bc1fa,但现在在我使用Requests 获得的页面中,它已经变成了something.something/5642001/128a67。类似,是的,但我不知道为什么会发生这种变化。

这绝对不是动态 js 的情况(我认为),因为当我在浏览器本身中查看页面源时,链接就很好:只有在请求(或 urllib 就此而言,我也尝试过)获取时才会出现问题那个页面给我。

对于解决此问题,我非常感谢一些帮助。

图一:链接的原始受影响部分,如我浏览器中的页面源所示。这是对的。

图二:当 Requests 为我获取整个页面时,相同的情况如何。严重困惑。

链接的原始受影响部分,如我浏览器中的页面源中所示。 这是对的。

当 Requests 为我获取整个页面时,同样的情况如何。 严重困惑。

标签: pythonpython-3.xweb-scrapingpython-requests

解决方案


推荐阅读