python-3.x - 如何从python中的ppt文件中提取文本和格式?
问题描述
我正在尝试在 python 中编写一个上下文相关的文本解析器。为此,我需要能够打开 ppt 文件并提取文本和有关其格式设置的信息。例如,我需要能够判断一个句子是在标题中还是粗体。
它应该在大批量文件上运行,因此手动将所有 ppts 转换为 pptxs 是不切实际的。我试过 tika,但它没有提供格式信息。我试过python-pptx,但是好像打不开ppts。而且我希望使解析器操作系统不可知,所以我在这个问题的其他变体中看到的命令行转换器对我不起作用,除非它们能以某种方式在 linux、mac 和 windows 上工作。
解决方案
推荐阅读
- nlp - 如何设置最大 CPU/内核数以将 BERT 作为服务运行?
- python - 使用 python 发送消息
- reactjs - 会话 cookie 不与 XHR 请求一起发送
- php - 如何在 Markmail 支持中写问题(即开放会议支持)
- angular - 如何使用 cdkDropListEnterPredicate 检查多个条件?
- android - React Native:自定义标题未设置为标题导航
- c++ - Visual Studio 2019 中的自动递增 FileVersion (build nr)
- mysql - 使用 sequelize 和 MySQL 方言生成模型
- node.js - 如何使这个 axios 删除请求起作用?
- sql - 使用公共列 POSTGRESQL 在两个表之间映射不同的值