python - 使用 olefile 从 Word .doc 中提取文本
问题描述
我只关心从 .doc 文件中获取文本。我在 Windows 10 上使用 python 3.6,所以 textract/antiword 不在讨论范围内。我查看了这个问题的其他参考资料,但它们都很旧并且与 Windows 10 和/或 python 3.6 不兼容。
我的文档是一个中英文混合的.doc文件。我不熟悉 Word 如何存储其文件,而且我的机器上没有 Word。使用 olefile 我能够获取文档的字节,但我不知道如何正确遍历标题和布局以提取文本。如果我天真地尝试
from olefile import OleFileIO as ofio
ole = ofio('d.doc')
stream = ole.openstream('WordDocument')
data = stream.read()
data.decode('utf-16')
>>>UnicodeDecodeError: 'utf-16-le' codec can't decode bytes in position 9884-9885: illegal encoding
data[9884:9885]
>>>b'\xfa'
data[:9884].decode('utf-16')
然后最后一行给了我大约一半的文档,以很多垃圾字符开始和结束。我怀疑我可以继续尝试这种方法来逐个获取文本,但我最终需要对很多文件执行此操作。即使我这样做了,我也想不出一个自动化的好方法。如何使用 olefile 从 .doc 可靠地获取文本?
(如果您知道适合我的规格的替代方案,也可以在您的答案中包含 olefile 的替代方案)
解决方案
我不确定,但我认为问题在于olefile不了解 Word 文档,只有 OLE“流”。所以我猜你提取的数据不仅仅是纯文本,还有某种控制字符。所以我想这就是为什么你不能将你得到的数据解码为 UTF-16 的原因。
有一些 Python 模块可以从 doc 文件转换,但它们往往只在使用命令行实用程序antiword
或catdoc
.
我尝试了其他解决方案 - 如果问题是您没有 Word 许可证,但可以安装软件,LibreOffice 可能是一条前进的道路。使用此命令,我将带有中文字母的 Word 测试文件从doc格式转换为HTML:
"c:\Program Files\LibreOffice\program\swriter.exe" --convert-to html d.doc
LibreOffice 还可以转换为许多其他格式,但 HTML 应该足够简单以便进一步处理。我还尝试了一个Windows端口,catdoc
但我无法让它处理中文字母。
太糟糕了,您没有安装 Word,或者您可以让它为您完成工作。将该解决方案留在这里以防其他人使用它:
import win32com.client
app = win32com.client.Dispatch("Word.Application")
try:
app.visible = False
wb = app.Documents.Open('c:/temp/d.doc')
doc = app.ActiveDocument
with open('out.txt', 'w', encoding = 'utf-16') as f:
f.write(doc.Content.Text)
except Exception as e:
print(e)
finally:
app.Quit()
推荐阅读
- windows - 为什么 msys2 bash 中的 win32 路径在遍历期间无法解析链接?
- reactjs - Next.js 路由与子路由的“next-connect”
- json - 如何在 Python 中将 JSON 格式转换为 XLSX 格式
- android - 在 App 中同时使用 Andorid AWS SDK 和 Amplify,Cognito 池问题?
- flutter - 在 Flutter 中添加带有异常的 Open Container 过渡
- c# - 尝试为 LiveCharts WPF 创建自定义工具提示 - 工具提示不显示数据
- python - 按大小排序文件时出现 FileNotFoundError
- ios - 来自 Capacitor App 的 iOS 模拟器上的网络错误
- kotlin - 为什么作者可以将接受两个参数的有趣的launchDetailsActivity分配给只接受一个参数的OnExploreItemClicked?
- vue.js - Vue chartkick 不显示