首页 > 解决方案 > 正则表达式未从推文中删除 URL

问题描述

我已经下载了我的推文历史记录,并且正在清理特殊字符和 url 的数据。我正在使用正则表达式来执行此操作,但某些 url 的正则表达式不起作用。它删除了一些但不是全部,这是我正在使用的正则表达式,它是一个函数,它返回没有特殊字符和 URL 的推文。

   return ' '.join(re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t]) | (\w +:\ / \ / \S +) | http\S+", " ", tweet).split())

以这样的推文为例(必须更改 url 链接,否则它不会让发布)

"RT @RobertDeNiroUS: i want to watch the game... \uD83E\uDD2A https://someurl https://someurl"

它将删除第一个网址,但不会删除第二个网址......这里相同

"face detection in Android Studio #AndroidDev #100DaysOfCode\nhttps://someurl https://someurl"

标签: pythonregexurltwitter

解决方案


推荐阅读