python - 使用 Python 从简历(.Docx、.Doc、PDF)中提取粗体文本
问题描述
我有数千份任何格式的简历,例如带有 .doc、.docx 和 pdf 的 word。
我想使用 python 中的 textract 库从这些文档中提取粗体文本。有没有办法使用 textract 提取?
解决方案
一个简单的解决方案是使用python-docx包。使用(!pip install python-docx)安装包
您需要将 pdf 文件转换为 .docx 。您可以使用任何在线 pdf 到 docx 转换器或使用python来做到这一点。
以下代码行将提取简历的所有粗体和斜体内容,并将它们保存在名为 boltalic_Dict 的字典中。您可以稍后检索。
from docx import *
document = Document('path_to_your_files')
bolds=[]
italics=[]
for para in document.paragraphs:
for run in para.runs:
if run.italic :
italics.append(run.text)
if run.bold :
bolds.append(run.text)
boltalic_Dict={'bold_phrases':bolds,
'italic_phrases':italics}
我希望这有帮助。
推荐阅读
- spring-boot - 在活动目录中更改密码时出错
- c++ - 如何从 scipy.minimize 迁移到 ceres-solver?
- scipy - 多元最小化/拟合结果的置信区间
- c++ - 有没有办法在视觉环境中使用 Win32 C++ 源代码?
- c# - 如何使用钛网络代理调试 ntml 身份验证
- c# - 如果变量(来自其他类)发生更改,则运行函数(C#)
- flutter - 无法在flutter项目中安装http客户端包
- c++ - 最佳 PCL 模板对齐设置
- ckeditor - 从 `window.parent.CKEDITOR.tools.callFunction(...)` 得到一个 `ResponseError`
- javascript - Angular 7是否可以使用动态复选框来过滤表中的数据?