python - 迭代每个 Pandas df 行并确定行值是否在列表中,如果是,则将该值拉入 df
问题描述
我有一个 pandas df,它为世界各地的州手动输入了值。我有一个格式正确并包含正确语法的状态值列表。我想遍历 pandas df 中的每一行,并将每行的值与状态列表中的所有值进行比较,以确定该行中的值是否包含在任何字符串值中。如果是这样,将该值从字符串中拉到一个名为“match”的新 df 列中。如果 pandas 行包含多个字符串值,则将两个值都带入并让它创建一个列表。下面是我的意思的一个例子。
注意:我已经可以使用 difflib get_close_matches 函数做到这一点。发布下面的代码并为此输出,想要一种方法来复制它,但对于熊猫中的 str.contains() 能力。
states_list = ['俄勒冈'、'德克萨斯'、'科罗拉多'、夏威夷、'索诺拉'、'阿拉斯加'、'阿拉巴马'、'阿克拉'等]
结果
我如何使用获取接近匹配项来选择与下面输入的状态值最接近的匹配项。想要添加另一列,其中包含行值字符串所在的状态列表中的值
解决方案
尝试以下操作:
s = set([i.lower() for i in states_list])
df['match'] = df['state_name'].apply(lambda x: list(set([i.strip().lower() for i in x.split(',')]).intersection(
s)))
df['match']=df['match'].apply(lambda x: [i[0].upper() + i[1:] for i in x])
推荐阅读
- java - jboss没有在部署文件夹中选择战争
- javascript - JavaScript 中是否有任何内置方法来查找数字的阶乘?
- angular - 如何以角度验证可编辑内容 td?
- mongodb - Mongodump 不适用于新的 Meteor 1.8
- multithreading - 多线程二分搜索
- c# - 当我以 xamarin 表单旋转内容页面时,我想将控件(图表)设置为适合屏幕
- javascript - 反应页面不从顶部呈现
- wordpress - 无法使用 Elementor 编辑 Wordpress 网站(“更新失败”)
- javascript - 与 async.parallel 斗争
- oracle11g - 无法访问表空间的 Oracle 用户是否可以将值插入到放置在该表空间中的表中?