python - 从文档的扫描图像中提取没有任何网格线和边框的表格数据
问题描述
从数字 PDF 中提取表格数据非常简单,使用camelot
和tabula
. 但是,该解决方案不适用于文档页面的扫描图像,特别是当表格没有边框和内部网格时。我一直在尝试使用OpenCV
. 然而,由于扫描的图像会有轻微的旋转角度,因此很难继续进行该方法。
我们如何利用OpenCV
为包含表格数据(以及文本段落)的扫描文档页面生成网格(水平和垂直线)和边框?如果可行,如何消除扫描图像的旋转角度?
解决方案
推荐阅读
- spring-boot - Spring Boot 的 keycloak 启动器在哪里?
- python - 取决于计算 groupby 对象中两个列单元格之间的差异的列
- jetty - 如何发布表单参数?
- c++ - GCC 编译器无法编译 Hello World 程序
- android - android平台上父视图之外的子组件无法响应onPress()事件
- rust - 在 macOS 上安装 Rust 时如何修复“库未加载:@rpath/libssl.1.0.0.dylib”?
- azure - Azure B2C 自定义策略中的自定义角色声明
- performance - 如何找出执行 Xtensa 微处理器的特定指令(例如 wsr / rsr)所需的时间?
- here-api - 我可以使用地理编码器发出 GET 请求以按多个 ID 列出多个城市吗?
- gulp - 意外错误:在循环内多次执行 Gulp.js 任务时编写回调调用