首页 > 解决方案 > bs4 Extract text from a list of as or and save it on excel

问题描述

标签: pythonpandasseleniumbeautifulsoup

解决方案


最后,用于更改页面的解决方案是发现将有多少页面。然后,创建一个包含将要搜索的页面的列表,并每次抓取所有数据。这里是创建要抓取的链接列表的示例:

driver.get(link)
pages= bs.find_all("span","bui-pagination__info") 
for page in pages:
    page= page.get_text()

在这部分中,我找到了一个页面中有多少个元素。有时可以是 10 个元素,但有时可以是 20、30 甚至 50。所以我不知道我必须先写哪个数字。

page= page[-2:] #I need only the number in my case
page= int(pagina) #I need to be integer

links = bs.find_all("a", "bui-pagination__link sr_pagination_link")

linkNumber=[]
for l in links:
    l = l.get_text()
    linkNumber.append(l)

这样,我就有了可以与 selenium 一起使用的链接,还有返回的页数。我需要找到最后一页的“编号”。

ultimoNumeroLink = linkNumero[-1]
ultimoNumeroLink = int(ultimoNumeroLink)

numeroMassimoElementi = ultimoNumeroLink * pagina

使用最后一个乘法,我可以找到我的研究中有多少元素。


推荐阅读