python - 如何在python中只读取和写入html页面中的文本?
问题描述
我想从本地存储的 html 页面中读取所有文本信息。我设法让它读取所有页面的信息,但它也在读取 html 标签和 javascript 代码。
我正在尝试从下载的 html 文件中获取信息,而不是来自网站的 url。我想要一种方法,只从我拥有的 html 页面中获取文本,该页面适用于下面的代码
我怎样才能使它只将html页面中的文本写入文本文件?
这是我的代码:
with open("ct.html","r",encoding='utf') as f:
data = f.read()
with open("test.txt", "w",encoding='utf-8-sig') as f:
for line in data:
f.write(line)
解决方案
你也可以尝试一些新的方法。
from simplified_scrapy import SimplifiedDoc, utils, req
html = utils.getFileContent('test.html')
doc = SimplifiedDoc(html)
utils.appendFile('test.txt', doc.text)
# Or
utils.appendFile('test2.txt', doc.title.text)
utils.appendFile('test2.txt', doc.body.text)
推荐阅读
- postgresql - 多数据库多模式似乎不适用于较新版本的 postgresql
- java - Map 的计算方法中的 BiFunction 对象
- c# - 如何检查类型数据日期的 Excel 单元格是否为空?
- sas - 如何打开以变量值命名的文件,该变量的值在 SAS 中跨行更改
- javascript - 无法将 HTML 结构包裹在元素周围
- css - 如何将 svg 路径变形动画合并到 React 应用程序中
- angular - 为什么运行 Angular 项目时会出现“TypeError: argument fn must be a function”错误?
- android - 有没有 ibm watson 的 android sdk 文档
- swift - SwiftUI - 在不修改视图大小的情况下使用 GeometryReader
- reactjs - page.data.json 404 未找到 & componentDidMount() 未在生产中触发