首页 > 解决方案 > 如何从 Pandas/Python 中的日志数据描述中删除日志 ID

问题描述

我有一个熊猫数据框形式的日志数据。一列是文本描述(字符串),其中包含“blk_-NUMBER”形式的日志 ID。其中一个文本描述如下所示:

'Blocked NameSystem.addStoredBlock: blockMap updated: 10.250.10.223:50010 is added to blk_-3435353464324 size 34535434'

我只是想从该列中删除“blk_-NUMBER”并将其他所有内容保留在那里,如下所示:

'Blocked NameSystem.addStoredBlock: blockMap updated: 10.250.10.223:50010 is added to size 34535434'

请注意,在“blk_-NUMBER”中,“NUMBER”可以采用可变长度。

标签: pythonregexpandastext

解决方案


您可以将正则表达式与 re 库一起使用,如下所示:

import re
s = 'Blocked NameSystem.addStoredBlock: blockMap updated: 10.250.10.223:50010 is added to blk_-3435353464324 size 34535434'
result = re.sub(' blk_-[0-9]*','',s)
print result

推荐阅读