python - 正则表达式未从推文中删除 URL
问题描述
我已经下载了我的推文历史记录,并且正在清理特殊字符和 url 的数据。我正在使用正则表达式来执行此操作,但某些 url 的正则表达式不起作用。它删除了一些但不是全部,这是我正在使用的正则表达式,它是一个函数,它返回没有特殊字符和 URL 的推文。
return ' '.join(re.sub("(@[A-Za-z0-9]+)|([^0-9A-Za-z \t]) | (\w +:\ / \ / \S +) | http\S+", " ", tweet).split())
以这样的推文为例(必须更改 url 链接,否则它不会让发布)
"RT @RobertDeNiroUS: i want to watch the game... \uD83E\uDD2A https://someurl https://someurl"
它将删除第一个网址,但不会删除第二个网址......这里相同
"face detection in Android Studio #AndroidDev #100DaysOfCode\nhttps://someurl https://someurl"
解决方案
推荐阅读
- pandas - 在 pandas 中创建分层列的问题
- html - 隐藏/显示内容 - 仅 CSS
- javascript - 按顺序解决承诺的麻烦
- azure-logic-apps - 如何查看其中一个运行历史记录条目的所有变量及其值的列表?
- javascript - 为什么 JavaScript textContent 不在此代码中分配正确的文本?
- excel - 数据透视表过滤器未更改为循环中的每个值
- python - 将 python 3.6 升级到 3.7 和 scikit-learn 0.19 升级到 0.23 时 PCA 的收敛变化
- .htaccess - 使用 htaccess 重定向会导致重定向过多
- android-camera2 - 使用Android camera2 api,即使所有的曝光参数都相同,但不同的设备会产生不同的曝光图像
- azure-logic-apps - 有什么方法可以添加更多跟踪信息,我可以在运行历史条目中看到它们