首页 > 解决方案 > 将句子与语料库对齐并发现不匹配

问题描述

理想的目标是根据参考语料库(实际文本)更正 Speech2text 模型的输出。我不介意在 NLP 空间或 ElasticSearch 中使用任何非自我工具

我有一个参考语料库,如下所示:

这是一种依赖,导致了一个摧毁生命的成瘾循环 这是一个循环,当你试图停止时会让你生病,如果你不停止,可能会夺走你的生命,除了它的身体影响之外,这个成瘾循环还包括与刑事司法系统的持续联系,而不仅仅是逮捕释放和违规的循环。

事实上,它的时间要长得多......

另一方面,我有一组从 CSV 文件中的语音 2 文本模型中识别出来的句子

1, is a cycle that makes you dick when
2, try two stops and essentially hates your
3, posses activated
4, lives when who don't and beyond

如您所见,因为 Speech2text 模型并不完美,因此存在错误,例如

1)在引用语料库时,这些子句拼写错误(例如,数字 1 的句子是 dick 而不是病态 2)有些句子与语料库完全不匹配 - 例如数字 3 3)将句子放在一起不涵盖整个段落。

所以基本上我想知道这个任务在 NLP 主题中叫什么,然后我可以做一个更好的谷歌搜索,如果你说出我可以利用的特定函数或示例,例如在 Space 或 NLTK 或任何其他工具中,我将不胜感激。

编辑:*我已经有 nlp(coursera 证书)的经验 - 因此,寻找一个具体的答案和/或示例而不是科学论文。这不是一般的纠错任务,也不是基于序列模型的下一个工作建议。

标签: regexelasticsearchnlpnltkspacy

解决方案


为什么你认为这“不是一般的纠错任务”?我觉得是这样的。您很酷地研究了“语法纠正”或“句子有效性”。

如何检查句子是否正确(Python 中的简单语法检查)中讨论了句子有效性?. 列出的工具还提供建议,因此可能对您有用。


推荐阅读