python - 如何使用python在两个特定字符串之间的网页中查找特定字符串?
问题描述
假设我正在抓取 www.website.com。使用这两行代码,
page = requests.get(www.website.com)
tree = html.fromstring(page.content)
我已将整个源存储到tree
. 现在,tree
显然是充满了文本和标签和 html 的东西。我只对位于其他两个字符串之间的一个特定字符串感兴趣,比如start
and end
,并且不包括一个特定word
的 . 我怎样才能做到这一点?
解决方案
在不知道您正在抓取的网站的具体格式的情况下,我能想到的唯一方法是对树中 html 元素的内容进行深度优先级联。然后在该串联中搜索“start”,记录该索引,搜索“end”,记录该索引,然后在两个索引之间获取一个子字符串。
推荐阅读
- session - ARKit 共享世界地图会话文件
- bash - 如何使用 bash 循环替换 fasta 文件中的行中的字母?
- ios - 使用 iOS 12.1 SDK 构建原生脚本应用程序时出现问题
- visual-studio-code - 缺少 Visual Studio Code 终端底部/顶部按钮
- npm - NPM 和“并发”失败
- java - 将数据添加到列表中并保持正确的顺序
- r - R数据库表拉编码问题
- mysql - 特定列中的 MySQL AFTER UPDATE 同一行中的 UPDATE 时间戳
- python - 使用 queue.PriorityQueue,不关心比较
- android - Android CollapsingToolbarLayout 并不总是崩溃