首页 > 解决方案 > 如果保留,双引号、点和逗号是否会修改 LSTM 中的忘记权重?

问题描述

我正在尝试使用 LSTM 实现自定义 NER。在预处理步骤中是否需要去除双引号、点和逗号等标点符号?如果保留它们会增加任何意义吗?因为每个文档都是句子的集合。

标签: kerasnlplstmnamed-entity-recognition

解决方案


标点符号可以携带很多关于实体开始和结束位置的信息。例如,实体名称不太可能包含单个双引号、以逗号开头等。这些都是 RNN 快速掌握并有助于模型性能的信息。

但是,请注意,正确标记输入文本。如果您只在空格处拆分文本,所有标点符号仍会附加到单词上,并且很可能会导致不必要的词汇表​​外标记。通过删除标点符号,您可以避免此问题,但会丢失重要信息。在 Python 中,您可以例如使用spacysacremoses进行标记化。


推荐阅读