首页 > 解决方案 > python中的requests.get(url)在循环中使用时表现不同

问题描述

我是 python 编程的新手,并试图抓取 Urls.txt文件中可用的每个链接。我写的代码是:

import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
user_agent = UserAgent()
fp = open("Urls.txt", "r")
values = fp.readlines()
fin = open("soup.html", "a")
for link in values:
    print( link )
    page = requests.get(link, headers={"user-agent": user_agent.chrome})
    html = page.content
    soup = BeautifulSoup(html, "html.parser")
    fin.write(str(soup))

当链接直接作为字符串而不是变量提供时,代码工作得非常好,但是当使用它时输出不同。

标签: pythonweb-scrapingxml-parsingpython-requestshtml-parsing

解决方案


也许您从文件中读取的字符串有换行符。要删除它,请使用link.strip("\n")


推荐阅读