machine-learning - AutoML 和文本实体提取问题 - 每个文档类型 1 个模型或所有文档类型 1 个模型
问题描述
我希望使用 Google AutoML 为几种不同类型的文档构建自定义实体提取模型。对于大多数意图和目的,我有 2 种文件类型,文件要么说一个人欠钱,要么文件说一个人已经还清,不再欠钱。
例如 Bob 欠 Larry 400 美元(文档类型 1)
例如,Bob 免除了他的债务(文档类型 2)
我需要的每种文档类型都有稍微不同的实体,但有一些重叠的实体(例如,在这个例子中,借款人和欠款是重叠的实体)。
我的问题是……有 2 个模型更好吗?一个模型在类型 1 文档上训练,另一个模型在类型 2 文档上训练。还是做 1 个在所有文档上训练的模型更好。我知道每个文档是什么类型,并且当我需要进行预测时,我将始终拥有该信息。另请注意,这些文件没有标准格式(浏览来自 1000 名律师的 1000 份法律文件,您会发现它们的组织方式各不相同,即使它们包含相同的信息)。
提前致谢,
杰夫
解决方案
推荐阅读
- javascript - Bootstrap 4切换开关在vue中不起作用
- arrays - 仅当它与其他随机数不同时才将随机数添加到列表中
- r - 如何根据每三行中存在的值创建百分比列?
- actionscript-3 - 有没有办法在 AS3(Adobe Animate CC)中为静态动画添加物理
- mongodb - 无法运行 docker flask image -pymongo.errors.ServerSelectionTimeoutError: localhost:27017: [Errno 111] Connection denied
- python - Django Rest Serializer validate 给出了 Invalid pk
- rust - 在 rust 中写入 Bellman 的磁盘参数
- python - dict迭代索引方法是什么?
- android - 在 onBindViewHolder 的 RecyclerView 中加载图像的问题
- css - 是否可以使用纯 css 检测文本宽度?