python - MS Word Scraping 适用于 docx 但不适用于 doc 文件
问题描述
我有以下代码正在查看多个单词文件,并将所有文本拉到每个文件的一行中。这适用于 docx 文件,但不适用于 doc
错误:
raise PackageNotFoundError(
docx.opc.exceptions.PackageNotFoundError: Package not found at 'C:\Users\xxx\sample.doc'
for w in wrd:
doc = docx.Document(os.path.join(resumes, w))
result = [p.text for p in doc.paragraphs]
result = ':::'.join(result)
files.append(w)
text.append(result)
解决方案
python-docx
仅适用于 Word 2007+.docx
文件。这些文件是 XML 文件(称为“部分”)的 zip 存档。旧版.doc
格式是二进制格式,完全不同。.doc
据我所知,没有用于读取旧格式的 Python 包。
推荐阅读
- c - 取消引用的指针在函数调用中更改地址
- mongodb - 如何在 Mongodb 地图中创建对象
- javascript - x 轴上的格式化日期日期
- python - 在 python 中将多个 excel '.xlsx' 转换为 '.csv' 文件时,我得到了额外的列?
- android - MainActivity 作为从 SampleDataProvider.class 返回空数据
- automation - 是否有任何自动化工具可以自动化运行 chrome 的基于 Windows 的应用程序?
- python - 使用pyspark计算文本文件中每个字母的单词数
- django - 如何将多个值插入模型中的同一字段
- d3.js - 带有标签和动画的 d3 标记水平图表
- javascript - 如何在 asp.net 中使用甜蜜警报进行警报和重定向