首页 > 解决方案 > MS Word Scraping 适用于 docx 但不适用于 doc 文件

问题描述

我有以下代码正在查看多个单词文件,并将所有文本拉到每个文件的一行中。这适用于 docx 文件,但不适用于 doc

错误:

    raise PackageNotFoundError(
docx.opc.exceptions.PackageNotFoundError: Package not found at 'C:\Users\xxx\sample.doc'
for w in wrd:
    doc = docx.Document(os.path.join(resumes, w))
    result = [p.text for p in doc.paragraphs]
    result = ':::'.join(result)
    files.append(w)
    text.append(result)

标签: pythonpython-docx

解决方案


python-docx仅适用于 Word 2007+.docx文件。这些文件是 XML 文件(称为“部分”)的 zip 存档。旧版.doc格式是二进制格式,完全不同。.doc据我所知,没有用于读取旧格式的 Python 包。


推荐阅读