regex - 将句子与语料库对齐并发现不匹配
问题描述
理想的目标是根据参考语料库(实际文本)更正 Speech2text 模型的输出。我不介意在 NLP 空间或 ElasticSearch 中使用任何非自我工具
我有一个参考语料库,如下所示:
这是一种依赖,导致了一个摧毁生命的成瘾循环 这是一个循环,当你试图停止时会让你生病,如果你不停止,可能会夺走你的生命,除了它的身体影响之外,这个成瘾循环还包括与刑事司法系统的持续联系,而不仅仅是逮捕释放和违规的循环。
事实上,它的时间要长得多......
另一方面,我有一组从 CSV 文件中的语音 2 文本模型中识别出来的句子
1, is a cycle that makes you dick when
2, try two stops and essentially hates your
3, posses activated
4, lives when who don't and beyond
如您所见,因为 Speech2text 模型并不完美,因此存在错误,例如
1)在引用语料库时,这些子句拼写错误(例如,数字 1 的句子是 dick 而不是病态 2)有些句子与语料库完全不匹配 - 例如数字 3 3)将句子放在一起不涵盖整个段落。
所以基本上我想知道这个任务在 NLP 主题中叫什么,然后我可以做一个更好的谷歌搜索,如果你说出我可以利用的特定函数或示例,例如在 Space 或 NLTK 或任何其他工具中,我将不胜感激。
编辑:*我已经有 nlp(coursera 证书)的经验 - 因此,寻找一个具体的答案和/或示例而不是科学论文。这不是一般的纠错任务,也不是基于序列模型的下一个工作建议。
解决方案
为什么你认为这“不是一般的纠错任务”?我觉得是这样的。您很酷地研究了“语法纠正”或“句子有效性”。
如何检查句子是否正确(Python 中的简单语法检查)中讨论了句子有效性?. 列出的工具还提供建议,因此可能对您有用。
推荐阅读
- visual-studio-code - VSCode链接票证/自定义规则?
- java - ViewPager2#onpageselect StackOverflowError
- asp.net-core-webapi - 使用WebApi接口用pkce流实现IdentityServer是真的吗
- elasticsearch - 有没有办法在 Kibana 中更改文档的默认视图?
- spring-boot - 无法在关闭的连接上调用方法,在连接 tera 数据池的理想时间后面临此问题
- php - PHP shell_exec 一段时间后返回空字符串
- python - 从存储桶(Google Cloud Storage)获取文件类型 json 以上传并保存在 VM 实例中
- sqlite - Moor_flutter limit() 方法不起作用/被忽略
- java - 如何使用 jsoup 获取 img src?
- react-native - React Native - 本地图像在模拟器中运行得非常好,但在发布后却没有