首页 > 解决方案 > 在 Python 中删除 [quote= 和 [/quote] 之间的文本

问题描述

我正在阅读一个用于应用 NLP 的 csv 文件,并且我正在尝试对数据进行预处理。我收到了来自在线论坛的数据,因此,上面有引用。如何删除它们?举个例子;

a='[b]Re:[/b] 
[quote="xxx"] How can I do that blah blah xxx [/quote]
 Hello xxx, I will tell you how you can do it blah blah blah.'

我想要下面的表格;

a='你好 xxx,我会告诉你怎么做的等等等等。

我想要检测 [quote=" 并开始删除直到它看到 [/quote] 的正则表达式。这可能吗?

我试过这个,但它没有用。

  def quotes(text):
   return re.sub('\[([^\]=]+)(?:=[^\]]+)?\].*?\[\/\\1\]', '', text)

  data['message'] = data['message'].apply(quotes)

标签: python-3.x

解决方案


答案其实太简单了,

def quotes(text):
 return re.sub(r'\[quote.+quote\]','',text)
data['message'] = data['message'].apply(quotes)

只是。


推荐阅读