python - 如何使用新的 Requests-HTML 库查找特定类型的所有元素
问题描述
我想在 HTML 中找到所有特定字段,在 Beautiful soup 中,一切都在使用以下代码:
soup = BeautifulSoup(html_text, 'html.parser')
urls_previous = soup.find_all('h2', {'class': 'b_algo'})
但是如何使用 requests 库进行相同的搜索,或者 requests 只能在 HTML 文档中找到一个元素,我在文档或示例中找不到如何做到这一点?
https://html.python-requests.org/
例子:
<li class="b_algo"><h2><a href="https://de.wikipedia.org/wiki/Vereinigte_Staaten">Vereinigte Staaten – Wikipedia</a></h2><a href="https://de.wikipedia.org/wiki/Vereinigte_Staaten">https://de.wikipedia.org/wiki/Vereinigte_Staaten</a></div><p>U.S., I wanna have THIS text here</p></li>
如何使用请求库找到特定类型的所有元素?
解决方案
带有请求-html
from requests_html import HTML
doc = """<li class="b_algo"><h2><a href="https://de.wikipedia.org/wiki/Vereinigte_Staaten">Vereinigte Staaten – Wikipedia</a></h2><a href="https://de.wikipedia.org/wiki/Vereinigte_Staaten">https://de.wikipedia.org/wiki/Vereinigte_Staaten</a></div><p>U.S., I wanna have THIS text here</p></li>"""
#load html from string
html = HTML(html=doc)
x = html.find('h2')
print(x)
推荐阅读
- python - 使用路径作为输入而不是文件名?
- python - Python-VLC 在随机播放后更新下一个播放曲目
- c - 为什么我无法初始化 SDL_image?
- css - 自托管字体未在应用程序中加载。我在应用服务器中使用@font-face 和自托管字体
- java - 如何在循环中覆盖字符串
- dotnetnuke - DNN 自定义皮肤给出 jquery 缺失错误
- python - 如何在venv中获取python的特定全局包(模块)?
- java - 如何使用 Spring Data MongoDB 1.8.2 进行“加入”查找?
- c# - 使用自定义模型的基于身份的身份验证
- xcode - Xcode 无缘无故地添加远程仓库