python - 使用for循环从列表中提取2个值
问题描述
我有一个大的 Excel 表,其中有一列包含几个不同的标识符(例如 ISBN)。我已将工作表转换为 pandas 数据框,并将带有标识符的列转换为列表。原始列的一行的列表条目如下所示:
'ISBN:978-9941-30-551-1 Broschur : GEL 14.90, IDN:1215507534'
但是,它们并不完全相同,有些带有 ISBN,有些没有,有些条目较多,有些条目较少(上例中为 5 个),不同的 ID 大部分(但不是全部)由一个逗号。
在下一步中,我构建了一个函数,该函数遍历各种列表项(一个长字符串,如上面的字符串),然后将其拆分为不同的单词(所以我得到类似
'ISBN:978-9941-30-551-1', 'Broschur :', 'GEL', '14.90', 'IDN:1215507534'
我希望提取 ISBN 和 IDN 的值(如果存在),然后将 ISBN 的指定列和 IDN 的指定列添加到我的原始数据帧(而不是包含混合数据的“标识符”列)。
我现在有下面的代码,它应该做什么,只是我的字典中有列表,因此结果数据框中的每个条目都有一个列表。我确信必须有更好的方法来做到这一点,但似乎无法想到......
def find_stuff(item):
list_of_words = item.split()
ISBN = list()
IDN = list()
for word in list_of_words:
if 'ISBN' in word:
var = word
var = var.replace("ISBN:", "")
ISBN.append(var)
if 'IDN' in word:
var2 = word
var2 = var2.replace("IDN:", "")
IDN.append(var2)
sum_dict = {"ISBN":ISBN, "IDN":IDN}
return sum_dict
output = [find_stuff(item) for item in id_lists]
print(output)
非常感谢任何帮助:)
解决方案
您不需要您的函数,只需将带有命名组的正则表达式应用于包含长字符串的原始列。
让我们想象一下这个例子:
df = pd.DataFrame({'other_column': ['blah', 'blah'],
'identifier': ['ISBN:978-9941-30-551-1 Broschur : GEL 14.90, IDN:1215507534',
'ISBN:123-4567-89-012-3 blah IDN:1234567890 other'
],
})
other_column identifier
0 blah ISBN:978-9941-30-551-1 Broschur : GEL 14.90, IDN:1215507534
1 blah ISBN:123-4567-89-012-3 blah IDN:1234567890 other
如果ISBN
总是 before IDN
,您可以使用pandas.Series.str.extract
:
df['identifier'].str.extract('(?P<ISBN>ISBN:[\d-]+).*(?P<IDN>IDN:\d+)')
输出:
ISBN IDN
0 ISBN:978-9941-30-551-1 IDN:1215507534
1 ISBN:123-4567-89-012-3 IDN:1234567890
如果有可能并不总是按此顺序排列,则使用pandas.Series.str.extractall
并重新处理输出groupby
:
(df['identifier'].str.extractall('(?P<ISBN>ISBN:[\d-]+)|(?P<IDN>IDN:\d+)')
.groupby(level=0).first()
)
最后,如果您不想要标识符名称,请将正则表达式更改为'(?:ISBN:(?P<ISBN>[\d-]+))|(?:IDN:(?P<IDN>\d+))'
:
(df['identifier'].str.extractall('(?:ISBN:(?P<ISBN>[\d-]+))|(?:IDN:(?P<IDN>\d+))')
.groupby(level=0).first()
)
输出:
ISBN IDN
0 978-9941-30-551-1 1215507534
1 123-4567-89-012-3 1234567890
注意。如果您需要字典作为输出,您可以.to_dict('index')
在命令末尾追加。这给你
{0: {'ISBN': '978-9941-30-551-1', 'IDN': '1215507534'},
1: {'ISBN': '123-4567-89-012-3', 'IDN': '1234567890'}}
推荐阅读
- windows - 2019 年 Windows 上 Redis 的状态?
- mysql - 在 SQL 中使用带有 Count 函数的减法常量
- c - char name[1],但是当我输入 13 个字符时,屏幕上会发生奇怪的事情
- javascript - HTML表格上的透视对象
- swift - 为什么 Swift Data 不能自由转换为 UnsafePointer?
- r - 是否有用于查找正确解析 txt 文件的 R 函数?
- winforms - 将 Win Form Text 输入转换为 PowerShell 中使用的变量
- linux - 如何使用现有环境变量通过 echo 命令写入 $BASH_ENV?
- google-app-engine - Google App Engine cron 作业失败且不重试
- java - 如何修复运行时异常(覆盖)