首页 > 解决方案 > 如何识别 R 中的类似文档?

问题描述

在这个阶段,我正在寻找可以解决我的问题的选项,因此我希望得到其他人的建议。我正在整理数百份文档,并希望减少手动处理。绝大多数是套用信函,所以我想识别和分组每种套用信函。

这些文档是 PDF、Word 和 HTML 的混合体,我已经能够从 PDF 文档中提取文本(还没有尝试过 Word 或 HTML,但应该很容易)。然而,一旦我到了这个阶段,我就是不知道下一步我应该做什么来确定,例如,除了提交者的姓名和组织等小改动之外,文档 A 和文档 B 几乎相同。

标签: r

解决方案


推荐阅读