keras - 如果保留,双引号、点和逗号是否会修改 LSTM 中的忘记权重?
问题描述
我正在尝试使用 LSTM 实现自定义 NER。在预处理步骤中是否需要去除双引号、点和逗号等标点符号?如果保留它们会增加任何意义吗?因为每个文档都是句子的集合。
解决方案
标点符号可以携带很多关于实体开始和结束位置的信息。例如,实体名称不太可能包含单个双引号、以逗号开头等。这些都是 RNN 快速掌握并有助于模型性能的信息。
但是,请注意,正确标记输入文本。如果您只在空格处拆分文本,所有标点符号仍会附加到单词上,并且很可能会导致不必要的词汇表外标记。通过删除标点符号,您可以避免此问题,但会丢失重要信息。在 Python 中,您可以例如使用spacy或sacremoses进行标记化。
推荐阅读
- pdf - r_Invalid Font Weight 中的 PDF 文本提取错误
- php - Form select query output - array
- python - Weibull fit to histogram is not a smooth line
- python - How to map survey answers to option numbers using pandas?
- angular - 在具有 3 个输入的自定义组件的第二个输入上使用 required
- oracle - 安装 Oracle Apex 19.2
- vb.net - 如何从 Oracle 数据库中检索数据并以不同格式在 Datagridview 中显示
- python - TypeError:只能将str(不是“列表”)连接到knn中的str
- mysql - 同时向多个表添加记录
- python-3.x - 在 ubuntu 16 上的 miniconda3 中创建新环境时出错