首页 > 解决方案 > 如何使用python在两个特定字符串之间的网页中查找特定字符串?

问题描述

假设我正在抓取 www.website.com。使用这两行代码,

page = requests.get(www.website.com)
tree = html.fromstring(page.content)

我已将整个源存储到tree. 现在,tree显然是充满了文本和标签和 html 的东西。我只对位于其他两个字符串之间的一个特定字符串感兴趣,比如startand end,并且不包括一个特定word的 . 我怎样才能做到这一点?

标签: pythonpython-3.xstringweb-scraping

解决方案


在不知道您正在抓取的网站的具体格式的情况下,我能想到的唯一方法是对树中 html 元素的内容进行深度优先级联。然后在该串联中搜索“start”,记录该索引,搜索“end”,记录该索引,然后在两个索引之间获取一个子字符串。


推荐阅读