首页 > 解决方案 > 如何在python中只读取和写入html页面中的文本?

问题描述

我想从本地存储的 html 页面中读取所有文本信息。我设法让它读取所有页面的信息,但它也在读取 html 标签和 javascript 代码。

我正在尝试从下载的 html 文件中获取信息,而不是来自网站的 url。我想要一种方法,只从我拥有的 html 页面中获取文本,该页面适用于下面的代码

我怎样才能使它只将html页面中的文本写入文本文件?

这是我的代码:

with open("ct.html","r",encoding='utf') as f:
    data = f.read()

with open("test.txt", "w",encoding='utf-8-sig') as f:
    for line in data:
        f.write(line)

标签: pythonhtmlfile

解决方案


你也可以尝试一些新的方法。

from simplified_scrapy import SimplifiedDoc, utils, req

html =  utils.getFileContent('test.html')
doc = SimplifiedDoc(html)
utils.appendFile('test.txt', doc.text)
# Or
utils.appendFile('test2.txt', doc.title.text)
utils.appendFile('test2.txt', doc.body.text)

推荐阅读