python - 如何正确存储 BeautifulSoup 对象以供以后使用
问题描述
最近,我一直在尝试存储一些页面的源代码,以便以后可以从它们那里删除我需要的东西,而不必担心互联网或可能的反抓取措施。我的第一种方法是将bs.prettify
每个链接的对象保存到同一 DataFrame 的列中。过了一会儿,我意识到我无法在这些对象上导航解析树(例如,访问bs.h1
)。所以,我想知道是否有办法将bs.prettify
对象中的字符串转换为可导航的 BeautifulSoup 对象,或者是否有比将源代码存储到 DataFrame 中以供以后使用更好的方法?
解决方案
推荐阅读
- netty - 将从 ChannelInboundHandlerAdapter 捕获的错误传播到 ChannelFuture
- javascript - 如何使用 ServerOperation 获取 Kendo Grid 项目的页面
- neo4j - 在 Neo4j 中使用密码匹配节点名称
- python - AttributeError:“元组”对象没有属性“autoscale_None”
- python - pandas groupby 使用一列列表值
- angular - 为什么没有返回我的 Edge HTTP 响应标头?
- node.js - Ghost - 无法连接到引导套接字 (localhost 8000) ECONNREFUSED
- scala - 在运行时从自定义位置加载 HOCON 格式的类型安全配置
- javascript - “这个”属于它的主人——
- java - 使用 spring-boot 休息:内容协商失败!未找到类型返回值的转换器