python - 如何在 Google Colab 中从 HTML 文件中提取文本
问题描述
我写了一些html文件。我想在 colab 中将其用作数据(文本数据)。例如,我想使用 in 中的文本<h1> "text "</h1>
,还需要提取整个班级和此类人员。你能告诉我如何在 google colab 中上传 HTML 文件,然后从这里提取一些文本。提前致谢
解决方案
您可以使用帮助程序呈现 HTML IPython.display.HTML
。
然后,使用eval_js
helper ingoogle.colab.output
来抓取呈现的 HTML 中的文本。
这是完整的示例:
在此处复制关键代码:
from IPython.display import HTML, display
from google.colab import output
# Render the HTML.
display(HTML(open('example.html').read()))
html_text = output.eval_js('document.body.innerText')
推荐阅读
- apache-spark - 如何通过pyspark连接远程Cassandra服务器进行写操作?
- azure-api-management - 如何在集中式共享 Azure APIM 服务实例中向其他开发人员隐藏我的产品和 API?
- here-api - 有没有办法在 HERE Maps Routing API v8 中检索有关先前计算的路线的信息而没有 routeHandle?
- c# - PostAsync 返回异常
- php - 如何从 PHP 监听 SQL 表的变化并返回一个值?
- node.js - 使用 nodejs 在 reactjs 中加载图像
- pci - 更改 PCIe BAR 大小
- macos - Intellij 停止进程但仍使用端口
- powershell - 删除用户配置文件列表
- python-3.x - 平滑换色问题