首页 > 解决方案 > 如何在 Google Colab 中从 HTML 文件中提取文本

问题描述

我写了一些html文件。我想在 colab 中将其用作数据(文本数据)。例如,我想使用 in 中的文本<h1> "text "</h1>,还需要提取整个班级和此类人员。你能告诉我如何在 google colab 中上传 HTML 文件,然后从这里提取一些文本。提前致谢

标签: pythonhtmlgoogle-colaboratory

解决方案


您可以使用帮助程序呈现 HTML IPython.display.HTML

然后,使用eval_jshelper ingoogle.colab.output来抓取呈现的 HTML 中的文本。

这是完整的示例

在此处输入图像描述

在此处复制关键代码:

from IPython.display import HTML, display
from google.colab import output

# Render the HTML.
display(HTML(open('example.html').read()))

html_text = output.eval_js('document.body.innerText')

要上传本地文件,您可以使用左侧文件浏览器面板,如下所示: 在此处输入图像描述


推荐阅读