python - 如何从字符串列表中删除 \uXXXX?
问题描述
我想删除所有以 \u 开头的单词。我相信这些是 unicode '\uXXXX'。
原始字符串:
"RT \u2066als \u2066@WBHoekstra\u2069 zijn poot maar stijf houdt in de Italiaanse kwestie. Leest Mattheus 25, 2-13 '"
期望的输出:
"RT @WBHoekstra zijn poot maar stijf houdt in de Italiaanse kwestie. Leest Mattheus 25, 2-13 '"
我尝试像这样使用正则表达式:
re.sub('\u\w+','',item )
但我收到以下错误:
"SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 0-1: truncated \uXXXX escape"
解决方案
你可以通过使用来做到这一点.encode('ascii', 'ignore')
"RT \u2066als \u2066@WBHoekstra\u2069 zijn poot maar stijf houdt in de Italiaanse kwestie. Leest Mattheus 25, 2-13 '".encode('ascii', 'ignore')
输出
b"RT als @WBHoekstra zijn poot maar stijf houdt in de Italiaanse kwestie. Leest Mattheus 25, 2-13 '"
推荐阅读
- yii2 - Yii2 语法中的标头
- ssl - 如何为rabbitmq添加密码套件支持?
- javascript - 剩余 -100% 时检查 div 位置
- regex - Python3 正则表达式不适用于脚本,但适用于 pythex.org
- javascript - JS React:this.x is not a function 的错误,即使 this.x 函数已绑定
- javascript - 创建一个包含 20 个随机数的数组
- java - android CallLog中subscription_id的含义
- javascript - Uncaught In promise Dom 异常
- reactjs - 为什么反应组件状态没有更新
- html - bootstrap : onclick navbar margin-top = 10 vh;