首页 > 解决方案 > 使用 Python 从简历(.Docx、.Doc、PDF)中提取粗体文本

问题描述

我有数千份任何格式的简历,例如带有 .doc、.docx 和 pdf 的 word。

我想使用 python 中的 textract 库从这些文档中提取粗体文本。有没有办法使用 textract 提取?

标签: pythontext-extraction

解决方案


一个简单的解决方案是使用python-docx包。使用(!pip install python-docx)安装包

您需要将 pdf 文件转换为 .docx 。您可以使用任何在线 pdf 到 docx 转换器或使用python来做到这一点。

以下代码行将提取简历的所有粗体斜体内容,并将它们保存在名为 boltalic_Dict 的字典中。您可以稍后检索。

from docx import *

document = Document('path_to_your_files')
bolds=[]
italics=[]
for para in document.paragraphs:
    for run in para.runs:
        if run.italic :
            italics.append(run.text)
        if run.bold :
            bolds.append(run.text)

boltalic_Dict={'bold_phrases':bolds,
              'italic_phrases':italics}

我希望这有帮助。


推荐阅读