首页 > 解决方案 > 如何从python中的ppt文件中提取文本和格式?

问题描述

我正在尝试在 python 中编写一个上下文相关的文本解析器。为此,我需要能够打开 ppt 文件并提取文本和有关其格式设置的信息。例如,我需要能够判断一个句子是在标题中还是粗体。

它应该在大批量文件上运行,因此手动将所有 ppts 转换为 pptxs 是不切实际的。我试过 tika,但它没有提供格式信息。我试过python-pptx,但是好像打不开ppts。而且我希望使解析器操作系统不可知,所以我在这个问题的其他变体中看到的命令行转换器对我不起作用,除非它们能以某种方式在 linux、mac 和 windows 上工作。

标签: python-3.xtext-parsing

解决方案


推荐阅读