首页 > 解决方案 > 切断文本的特定部分

问题描述

我的 DataFrame 中有电子邮件文本数据。我看到一些电子邮件包含他们的签名,上面写着他们公司的部门,如下所示

==================================
ABCD corporation
 IT department
 Name
 Email
==================================

为了进行数据分析,我不需要这些签名部分,所以我有点想摆脱它们。我已经列出了这些分隔符,例如人们用于签名的“===”和“----”。所以我有点想编写一个代码,如果“==”出现超过 4 次或其他什么,它会删除其中的所有文本。有没有任何pythonic方法来实现它?

标签: pythonpandas

解决方案


stri="""
jshsb sjhsvs jwjj bla bla bla
==================================
ABCD corporation
 IT department
 Name
 Email
==================================
"""

stri=stri.split()
for i in range(len(stri)):
    if ('====' in stri[i]) or ('----' in stri[i]):
        stri=stri[:i]
        break

print(' '.join(stri))

输出:

jshsb sjhsvs jwjj bla bla bla

推荐阅读