vba - 为 AI 训练创建带有相应标签的文档变体
问题描述
我正在为以下问题寻找一个简单的解决方案:我必须创建文档的变体并将它们导出为图像。这可以通过 MS Word 邮件合并轻松完成,但我需要该文档中每个文本块的像素位置。输入图像和像素位置以进行 AI 训练。
目前我可以想到几种方法:
- 将 MS Word Mail Merge 输出放入 OCR 并尝试通过将它们与原始文本源进行比较来识别文本块的位置。
- 使用 JS、Python 或 Visual Basic 之类的东西创建文档,并在插入时保存每个插入文本块的确切位置。
- 也许使用 Visual Basic for Word 从使用邮件合并功能创建的 MS Word XML 文件中提取文本位置。
变体 1 似乎过于复杂,因为它使用了某种逆向工程。此外,即使在完全可读的文档上使用 OCR 也总是会导致错误。
所以变体 2 或 3 看起来不错,但我不知道任何符合要求的库,而 Visual Basic for Word 对我来说绝对是新领域。
我希望我能很好地描述这个问题。如果你想让我澄清一些事情,请告诉我。
我感谢每一个想法和帮助!:)
最好的问候亨里克
解决方案
好像有人已经不喜欢我的帖子了。在投票给我之前,请让我知道如何改进。
无论如何,我可能已经找到了实现变体 2 的方法。这篇stackoverflow 帖子引用了一个扩展 Python 图像库的Github Gist。它提供了在图像上写入文本并设置文本框的最大宽度的功能。该函数还返回绘制文本框的最终宽度和高度。使用它,我将尝试实现一种创建文档图像和标签文件的算法。
也许这也会帮助其他人寻找同样的东西。
推荐阅读
- scala - 将具有地图值的多个地图合并为自定义案例类实例
- amazon-web-services - AWS:如何将多个文件从本地复制到 s3?
- c# - 我想在页面加载事件中从数据表向 gridview 添加列:
- android - PositionalDataSource 不显示列表
- pyramid - 如何通过不同的端口使用 pserve 部署多个实例,但相同的服务器和差异目录?
- react-native - 如何将 React Native 版本从 0.60.4 降级到 0.59
- css - 怎样去除描边边框
- java - Spring Boot Data JPA 嵌套 DTO 对象映射
- c# - ASP.Net Core Web API 和持久性基本身份验证
- javascript - 如何在不使用 react-router 的情况下知道刷新页面之前正在渲染哪个组件?