deep-learning - 文本的光学识别及其结构分析(标题、副标题、正文)
问题描述
我们希望分析具有文本(非手写)的文档扫描和具有非常广泛的不同语言的排列/结构的图像。我们尝试解决的第一个问题是提取文本以及识别和分离标题、副标题和文本主体。
目前我们正在进行文献研究。有大量关于深度学习、计算机视觉、光学字符识别或自然语言处理的文献,但没有一个真正关注文本结构的光学识别。
我们想知道,处理文本结构光学识别的学科/领域的名称是什么?
解决这些问题的最先进的方法和工具是什么?
解决方案
光学布局识别 (OLR)。可以在此处找到用于布局分析和区域提取的开源工具的一个很好的示例。
推荐阅读
- jmeter - 如何在 JSON POST 请求中关联两个变量
- c++ - 不同概念的 C++ 不同 using 声明
- amazon-web-services - HTML 无法访问 Amazon S3 存储桶 css 和 js 文件夹
- javascript - 为什么我的对象中的属性值重复?
- python - 如何在课堂上的一个函数中使用 celery 进度条?
- javascript - 是否有用于函数调用或变量的 Javascript 事件
- c++ - 从派生类中看不到 C++ 继承方法
- git - 解决 Bitbucket 中我无权推送到源或目标分支的合并冲突
- python - 如何在 matplotlib 中做一个 3D 绘图,其中两个函数只用一个变量进行评估?
- javascript - JS / JSX 脚本,用于从所有 Photoshop 图层组及其 Photoshop 图层的所有排列中生成唯一的 PNG