r - 如何识别 R 中的类似文档?
问题描述
在这个阶段,我正在寻找可以解决我的问题的选项,因此我希望得到其他人的建议。我正在整理数百份文档,并希望减少手动处理。绝大多数是套用信函,所以我想识别和分组每种套用信函。
这些文档是 PDF、Word 和 HTML 的混合体,我已经能够从 PDF 文档中提取文本(还没有尝试过 Word 或 HTML,但应该很容易)。然而,一旦我到了这个阶段,我就是不知道下一步我应该做什么来确定,例如,除了提交者的姓名和组织等小改动之外,文档 A 和文档 B 几乎相同。
解决方案
推荐阅读
- android - 通过 ContextCompat.startForegroundService() 启动服务后应用程序立即崩溃
- sql - 如何获取大数据的值频率
- c# - 围绕非托管 DLL 的 C# 包装器库要求非托管 DLL 在构建期间位于同一目录中
- microsoft-graph-api - 使用 Microsoft Graph 读取用户电子邮件的示例
- javascript - 这个网站如何做自定义颜色?
- python - 如何访问不同滑块小部件的 id?
- arrays - React:如何从一维数组制作二维数组?
- javascript - DropzoneJs - 上传完成后可以删除“删除链接”
- python - Python 帮助。在文件中查找最大值并打印出值 w 名称
- r - r - if (abs(x - oldx) < ftol) { 中的 mlogit 错误:需要 TRUE/FALSE 的缺失值