python - 从 Pandas Dataframe 中的列中删除 URL
问题描述
我有一个小数据框,并试图从 Links 列中的字符串末尾删除 url。我已经尝试了以下代码,它适用于 url 独立的列。问题是,只要网址前有句子,代码就不会删除这些网址
以下是数据:https ://docs.google.com/spreadsheets/d/10LV8BHgofXKTwG-MqRraj0YWez-1vcwzzTJpRhdWgew/edit?usp=sharing (电子表格链接)
import pandas as pd
df = pd.read_csv('TestData.csv')
df['Links'] = df['Links'].replace(to_replace=r'^https?:\/\/.*[\r\n]*',value='',regex=True)
df.head()
谢谢!
解决方案
试试这个:
import re
df['cleanLinks'] = df['Links'].apply(lambda x: re.split('https:\/\/.*', str(x))[0])
输出:
df['cleanLinks']
cleanLinks
0 random words to see if it works now
1 more stuff that doesn't mean anything
2 one last try please work
推荐阅读
- javascript - Javascript如何记录应该是特定类型的对象的变量
- delphi - delphi TIdUdpClient接收数据的问题
- android - 在特定设备上加载本机库时找不到符号
- python - 在 django rest 框架中通过 Browsable Api 添加文件
- laravel - 如何在刀片 laravel 中显示数据库中的照片
- postgresql - PostgreSQL:根据其他表中关联记录的最大值查找一个表中的行
- reactjs - 如何从 React 应用程序的模板库中导入组件?
- c++ - Arduino模块化编程与全局设置
- r - 在 Graphviz 中,如何仅将一条边设置为 spline=curve
- javascript - 如何在javascript中访问多值字典?