python - 关于通过循环脚本循环多个站点的最佳意见
问题描述
我有一个 xml 站点地图。我想在地图上的所有链接上运行一个脚本。这是为我提供链接的代码。
from lxml import etree
import urllib
from urllib.request import urlopen as uReq
from bs4 import BeautifulSoup as soup
my_firsturl = 'https://www.desertessence.com/sitemap.xml'
pagedata = urllib.request.urlopen(my_firsturl)
mapa = soup(pagedata, "lxml-xml")
print (mapa)
在其他 HTML 网站上,我可以调用[0], [1]
单行。这样我就可以创建一个循环。我最终想给它提供多张地图并让脚本重复。目前我无法调用特定链接并且即使在查看文档之后也缺乏知识。
解决方案
我会切换到 urllib3 http://urllib3.readthedocs.io/en/latest/user-guide.html
并使用内置的池管理器。 http://urllib3.readthedocs.io/en/1.2.1/managers.html
import urllib3
from bs4 import BeautifulSoup
url = 'https://www.desertessence.com/sitemap.xml'
req = urllib3.PoolManager(10)
res = req.request('GET', url)
mapa = BeautifulSoup(res.data, "lxml")
for links in mapa.select("url loc"):
print(links.text)
推荐阅读
- clion - 在 CLion 中导入非常大的 C 项目。(200k+ 标头)
- stm32 - 用于以太网/TCP-IP 的 STM32F3 文档
- python - 将我遇到的 Pandas 警告存储在变量中
- python - 如何修复我的定义以使用 return 语句正确结束,而不是以 print 结束?
- python - Python GTK ScrolledWindow 高度问题
- python-3.x - 通过所有列绘制直方图
- php - 我需要成为 abel 来过滤一张桌子,谁能告诉我怎么了
- plotly - 为 jupyter lab 安装 plotly-extension 时出错
- git - GitHub - 如何在 2 个 GitHub 存储库之间实时同步?
- generics - Star 投影集合中的特定 KClass