首页 > 解决方案 > 如何使用 Python 恢复标点符号?

问题描述

我想在没有标点符号的情况下恢复文本中的逗号和句号。例如,让我们看这句话:

I am XYZ I want to execute I have a doubt

我想检测在上面的例子中应该有 1 个逗号和 1 个句号:

I am XYZ, I want to execute. I have a doubt.

谁能建议我如何使用 Python 和 NLP 概念来实现这一目标?

标签: pythonnlpnltklstm

解决方案


如果我理解得很好,您想通过添加适当的标点来提高句子的质量。这有时称为标点恢复

一个好的第一步是应用通常的 NLP 管道,即标记化POS 标记解析,使用诸如NLTKSpacy之类的库。

完成此预处理后,您必须根据从 NLP 管道中提取的特征(例如句子边界、解析树、POS 等)应用基于规则或机器学习的方法来定义标点符号的位置。 )。

然而,这不是一项微不足道的任务。如果你想定制你的算法,它可能需要强大的 NLP/AI 技能。

一些可以重复使用的例子:

  • 是一个使用 Spacy 的简单方法,主要基于句子边界。
  • 是一个更复杂的解决方案,使用Theano深度学习库。

推荐阅读