python - 将列文本模式与定义列表进行比较,并将定义列表中的第一个匹配字符串返回到数据框中的新列
问题描述
假设我有咖啡店菜单列表。我想取文本并返回数量和项目名称。
menu = ['Cappuccino','Café Latte','Expresso','Macchiato ','Irish coffee ']
现在我想从我的菜单中提取数字和订购的项目名称匹配(菜单中的任何第一个匹配项)
示例文本:带 1 个 Capputino
输出数据框:
text Quantity match
Bring 1 Capputino 1 Cappuccino
不必要的文本输入拼写将与菜单完全相同,因此它只会从匹配列中的菜单列表中返回匹配模式。
我写了下面的代码,但它在匹配列中返回 Nan。感谢任何指导。
代码:
import pandas as pd
import numpy as np
import re
def ccd():
global df
menu = ['Cappuccino','Café Latte','Expresso','Macchiato ','Irish coffee ']
for i in range(len(menu)):
menu[i] = menu[i].upper()
order = input('Enter a substring: ').upper()
args_dict = {'CAPUCINO':'CAPPUCCINO',
"COFFI":"COFFEE",
"COOKI":"COOKIE" }
#order=order.split()
for i,j in enumerate(order):
if j in args_dict:
order[i]=args_dict[j]
df = pd.DataFrame({'text':[order]})
df["Quantity"] = df.text.str.extract('(\d+)')
df['match'] = df.text.str.extract('(' + '|'.join(menu) + ')')
解决方案
看看以下内容:
import re
menu_map = {'cap': 'Cappucino',
'caf': 'Café Latte',
"cof": "Irish coffee",
"cok": "Cookie",
"cook": "Cookie"}
order = input('Enter a substring: ')
df = pd.DataFrame({'Text': [order]})
df["Quantity"] = df.Text.str.extract('(\d+)')
df['Match'] = df.Text.str.extract('(' + '|'.join(menu_map) + ')', flags=re.IGNORECASE)
df['Replacement'] = df.Match.str.casefold().map(menu_map)
结果为order == 'Bring 1 Caputino'
Text Quantity Match Replacement
0 Bring 1 Caputino 1 Cap Cappucino
和order == 'Bring 1 Caxutino'
Text Quantity Match Replacement
0 Bring 1 Caxutino 1 NaN NaN
因为没有任何模式menu_map
可以捕获'Caxutino'
。
在我看来,这就是您本质上要寻找的东西?由于您不想要该Replacement
列(我仅将其用于透明度),因此您可以:
df['Match'] = df.Text.str.extract('(' + '|'.join(menu_map) + ')', flags=re.IGNORECASE)
df.Match = df.Match.str.casefold().map(menu_map)
(我不明白你想用这for ... if ...
部分实现什么。)
编辑:既然我理解了这for ... if ...
部分,我会提出以下方法:
args_dict = {'capu': 'Cappuccino', 'chap': 'Cappuccino',
'cof': 'Coffee', 'coof': 'Coffee', 'chof': 'Coffee',
'cok': 'Cookie', 'chok': 'Cookie', 'choo': 'Cookie'}
order = order.split()
for i, word in enumerate(order):
word = word.casefold()
for key in args_dict:
if word.startswith(key):
order[i] = args_dict[key]
break
order = ' '.join(order)
或者:
args_dict = {('capu', 'chap'): 'Cappuccino',
('cof', 'coof', 'chof'): 'Coffee',
('cok', 'chok', 'choo'): 'Cookie'}
order = order.split()
for i, word in enumerate(order):
word = word.casefold()
for keys, replacement in args_dict.items():
for key in keys:
if word.startswith(key):
order[i] = replacement
break
order = ' '.join(order)