python - 如何检测 PDF 中的选项卡?
问题描述
例如,假设我想从这个 PDF 中提取所有子句,例如提取到单独的 excel 单元格中。 带有子句/标签的示例 PDF
如果我可以检测到每次有一个选项卡,即条款编号和文本之间的空格,如图所示,我认为这将检测 PDF 中每个条款的开头,我可以提取所有文本之间的条款的开始。
我试过 python pdf 阅读器,我试过将 pdf 转换为 word 文档,然后使用 python docx 阅读器。不过,我无法始终如一地检测到 PDF 中如此清晰的标签。有谁知道我怎么能做到这一点?
解决方案
推荐阅读
- python - OpenCV(4.1.2) 错误: (-215:Assertion failed) !ssize.empty() in function 'cv::resize'
- arrays - 如何迭代对象数组?
- c# - 在 XAML 中可视化 ObservaleCollection 属性
- .net-core - 使用 microsoft DI 的运行时构造函数参数
- python - 如何将文本文件中由:分隔的字符串和数字拆分为python中的行和列
- html - html 表单发布到 aspx 页面,标题字段未发布。Chrome 说请求是 GET,根本不显示表单数据
- python - 如何使用 python api 更改搅拌机上的环境纹理?
- tcp - 如何修改linux内核中的默认tcp实现
- css - 在 React 中使用 className 修改字体大小
- python - python 和 PHP 的共享配置文件格式