python-3.x - 在 Python 中删除 [quote= 和 [/quote] 之间的文本
问题描述
我正在阅读一个用于应用 NLP 的 csv 文件,并且我正在尝试对数据进行预处理。我收到了来自在线论坛的数据,因此,上面有引用。如何删除它们?举个例子;
a='[b]Re:[/b]
[quote="xxx"] How can I do that blah blah xxx [/quote]
Hello xxx, I will tell you how you can do it blah blah blah.'
我想要下面的表格;
a='你好 xxx,我会告诉你怎么做的等等等等。
我想要检测 [quote=" 并开始删除直到它看到 [/quote] 的正则表达式。这可能吗?
我试过这个,但它没有用。
def quotes(text):
return re.sub('\[([^\]=]+)(?:=[^\]]+)?\].*?\[\/\\1\]', '', text)
data['message'] = data['message'].apply(quotes)
解决方案
答案其实太简单了,
def quotes(text):
return re.sub(r'\[quote.+quote\]','',text)
data['message'] = data['message'].apply(quotes)
只是。
推荐阅读
- javascript - 每次调用向该对象添加值的函数时,如何防止 JS 对象中的值被删除?
- python-3.x - 如何使用 google colab 将变量插入文本单元格
- php - 使用 PHP PDO 进行会计连续数学求解
- python - 如何使用 admin.tabularinline 在 django 管理页面中更改字段集的标签标记
- android - 如何从活动更新服务中的价值
- python-3.x - Keras 中的 Hashing_trick。这个怎么运作?
- aem - AEM - 如何缓存页面范围的模型?
- reactjs - 加载页面时如何单击按钮做出反应?
- excel - 数据粘贴后如何点击按钮
- reactjs - 我可以在两个 useState 对象都更新之前阻止重新渲染吗?