python - 如何从熊猫中提取特定的字符串?
问题描述
这是我的数据框df:
Repository
0 ParaskP7/android-dev-sources
1 uholeschak/ediabaslib
2 t3hk0d3/ruby_faceapp
3 prateekbh/hopon
4 c0i/cocos2d-x-v2
5 risk1996/ctg-cheat
6 GiacomoPignoni/undercover_discord_bot
7 vyasishanatc194/Crowdbotics-React-Native-Test
我需要在“/”之后提取刺痛,例如我需要提取“android-dev-sources”的第一行
import pandas as pd
df = pd.read_csv('result_refactorings.csv', sep=';')
refactoring_details = df['repository']
a=repo_Name.to_frame(name=refactoring_details)
a.repository.str.extract(r'')
问题在于提取功能,我无法定义我的模式
请提供任何帮助。谢谢!
解决方案
方法一:str.split
df['Repository'].str.split(r'/').str[1]
0 android-dev-sources
1 ediabaslib
2 ruby_faceapp
3 hopon
4 cocos2d-x-v2
5 ctg-cheat
6 undercover_discord_bot
7 Crowdbotics-React-Native-Test
Name: Repository, dtype: object
方法二:str.extract
使用正则表达式:
df['Repository'].str.extract('\/(.*)')
0
0 android-dev-sources
1 ediabaslib
2 ruby_faceapp
3 hopon
4 cocos2d-x-v2
5 ctg-cheat
6 undercover_discord_bot
7 Crowdbotics-React-Native-Test
推荐阅读
- apache-spark - 尝试在 PySpark DataFrame 中创建具有最大时间戳的列
- c - 在 C 中复制数组时出现分段错误错误
- google-earth-engine - 如何找到表示 Google 地球引擎中没有数据的原因的填充值?
- html - 引导轮播的问题
- powershell - 如何使用 New-MgGroupOwnerByRef / Microsoft Graph PowerShell 模块 1.1.0 添加组所有者?
- azure - Office 365:将 Azure 应用程序限制为一组用户
- sql - Oracle中至少有两个大写和两个小写字母的密码正则表达式
- c# - 类似辐射的终端系统 = 匹配字符串中的每个字符
- reactjs - ReactJS 钩子。TypeError: Object(...) 不是函数
- nestjs - 如何让 websockets 与 NestJS 一起工作