首页 > 解决方案 > 匹配连字符与换行符的组合

问题描述

import re
string = re.sub(r'-\n', '', string)

我想标记文本的单词。问题是,所有位于行尾的单词都被错误地标记了。所以我必须在换行符之前删除连字符。

谢谢你的帮助!

标签: pythonregexnltktokenize

解决方案


尝试使用前瞻来识别换行符,而不是将其包含在子操作的一部分中:

string = re.sub(r'-(?=\n)', '', string)

演示


推荐阅读