首页 > 解决方案 > 如何从字符串列表中删除 \uXXXX?

问题描述

我想删除所有以 \u 开头的单词。我相信这些是 unicode '\uXXXX'。

原始字符串:

"RT  \u2066als \u2066@WBHoekstra\u2069 zijn poot maar stijf houdt in de Italiaanse kwestie. Leest Mattheus 25, 2-13 '"

期望的输出:

"RT @WBHoekstra zijn poot maar stijf houdt in de Italiaanse kwestie. Leest Mattheus 25, 2-13 '"

我尝试像这样使用正则表达式:

re.sub('\u\w+','',item )

但我收到以下错误:

"SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 0-1: truncated \uXXXX escape"

标签: pythonregexstringunicodepython-unicode

解决方案


你可以通过使用来做到这一点.encode('ascii', 'ignore')

"RT  \u2066als \u2066@WBHoekstra\u2069 zijn poot maar stijf houdt in de Italiaanse kwestie. Leest Mattheus 25, 2-13 '".encode('ascii', 'ignore')

输出

 b"RT  als @WBHoekstra zijn poot maar stijf houdt in de Italiaanse kwestie. Leest Mattheus 25, 2-13 '"

推荐阅读