python - 抓取特定的一组
问题描述
我正在尝试获取嵌套在 ul 中的特定 li 组。下面是我的起始代码。我要获取的数据位于https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/Risikogebiete_neu.html。我突出显示了我想要获取的 li(s) 块。
> import requests from bs4 import BeautifulSoup
> # print(soup.prettify())
> page = requests.get('https://www.rki.de/DE/Content/InfAZ/N/Neuartiges_Coronavirus/Risikogebiete_neu.html').text
>
> soup = BeautifulSoup(page, 'html.parser')
> uls = soup.find_all('ul',id=None)
> mine=[]
> for ul in uls:
> newsoup = BeautifulSoup(str(ul), 'html.parser')
> lis = newsoup.find_all('li',id=None)
> for li in lis:
> mine.append(li.text)
> print(li.text)
解决方案
一种方法是使用 Xpath。这允许您通过从顶层指定整个嵌套来选择文档中的特定元素。请注意,这是非常脆弱的,因为如果任何嵌套更改它都会中断。
推荐阅读
- c++ - 如何使用openssl EVP解密?
- linker - 使用 arm-none-eabi-gcc 编译器为 RaspberryPI2 和 BeableBoneBlack 编译 sqrt 函数时出错
- r - R Barplot Animation 截断的条形图
- asp.net - 如何使用 axios.put 将 JSON 发送到 ASP.NET 控制器
- python - 如何使用 Python 中的排序算法对列表字典进行排序?
- r - 如何使用 R 以摘要格式构造数据
- c# - ASP.Net Core、Entity Framework 和 MySQL 给出了 Create 异常?任何想法为什么?
- database - Entity Framework Core 一对多相关数据导航属性始终为空
- python - python gpg.decrypt 输出文件为空
- python - Django 自定义超级用户无法在管理面板中创建新用户