首页 > 解决方案 > 从 Pandas Dataframe 中的列中删除 URL

问题描述

我有一个小数据框,并试图从 Links 列中的字符串末尾删除 url。我已经尝试了以下代码,它适用于 url 独立的列。问题是,只要网址前有句子,代码就不会删除这些网址

以下是数据:https ://docs.google.com/spreadsheets/d/10LV8BHgofXKTwG-MqRraj0YWez-1vcwzzTJpRhdWgew/edit?usp=sharing (电子表格链接)

import pandas as pd  

df = pd.read_csv('TestData.csv')    

df['Links'] = df['Links'].replace(to_replace=r'^https?:\/\/.*[\r\n]*',value='',regex=True)

df.head()

谢谢!

标签: pythonpython-3.xpandas

解决方案


试试这个:

import re
df['cleanLinks'] = df['Links'].apply(lambda x: re.split('https:\/\/.*', str(x))[0])

输出:

df['cleanLinks']

    cleanLinks
0   random words to see if it works now 
1   more stuff that doesn't mean anything 
2   one last try please work 

推荐阅读