python - bs4 Extract text from a list of as or and save it on excel
问题描述
解决方案
最后,用于更改页面的解决方案是发现将有多少页面。然后,创建一个包含将要搜索的页面的列表,并每次抓取所有数据。这里是创建要抓取的链接列表的示例:
driver.get(link)
pages= bs.find_all("span","bui-pagination__info")
for page in pages:
page= page.get_text()
在这部分中,我找到了一个页面中有多少个元素。有时可以是 10 个元素,但有时可以是 20、30 甚至 50。所以我不知道我必须先写哪个数字。
page= page[-2:] #I need only the number in my case
page= int(pagina) #I need to be integer
links = bs.find_all("a", "bui-pagination__link sr_pagination_link")
linkNumber=[]
for l in links:
l = l.get_text()
linkNumber.append(l)
这样,我就有了可以与 selenium 一起使用的链接,还有返回的页数。我需要找到最后一页的“编号”。
ultimoNumeroLink = linkNumero[-1]
ultimoNumeroLink = int(ultimoNumeroLink)
numeroMassimoElementi = ultimoNumeroLink * pagina
使用最后一个乘法,我可以找到我的研究中有多少元素。
推荐阅读
- vba - 为什么这个 VBA 代码不能正确保存和恢复选择
- ios - 文本字段内的图像大小未调整大小
- javascript - 点击提交后,React js中没有提交输入
- latex - Pandoc脚注中的引用呈现为数字
- django - Django 两个数据库用于一个项目中的两个应用程序。如何正确进行迁移?
- vuejs2 - Vue 改变了一个用作“v-model”的属性
- .net - System.IO.FileInfo 的“目标”成员在哪里记录?
- docker - 我在 Heroku 上使用 Hasura。如何使用具有当前数据的 docker 在本地工作?
- python - 将日期时间对象保存和加载为 npy/pickle 格式
- clickhouse - 如何将带有 YYYYMMDD 列的 CSV 文件导入 ClickHouse 中的 DATE 列