python - 转换和求和熊猫数据框列内嵌套列表中的元素
问题描述
我有一个这样的 df 列:
col1
[[0.73, 0.43, 0.5, 0.0], [0.39, 0.5], [0.37], [0.38, 0.51, 0.0, 0.2]]
[[0.53, 0.33, 0.2, 0.0], [0.79, 0.5], [0.96], [0.88, 0.21, 0.0, 0.0]]
子列表可以是任意大小。我正在尝试将子列表中的数字转换为浮点数(它们是字符串),然后创建一个汇总每个子列表的列,然后除以子列表中的项目数
所以第1行的总和:
(.73 + .43 + .5 + 0) / 4 =.415
(.39 + .5) / 2 = .445
(.37) / 1 = .37
(.38 + .51 + 0.0 + .2) / 4 = .272
对于第 2 行:
(.53 + .33 + .2 + 0) / 4 = .265
(.79 + .5) / 2 = .645
(.96) / 1 = .96
(.88 + .21 + 0.0 + 0.0) / 4 = .272
结果:
new_col
[[.415],[.445],[.37],[.272]]
[[.265],[.645],[.96],[.272]]
我尝试了一堆东西:
#something like this where it creates a column of the number of elements in each sublist and then uses that to divide the sum of each number
# this didn't work - just grabbed the first lists size
df1['words_in_company_name'] = df1['children_org_name_sublists'].str.len()
#this doesn't really work - i mean it shows the numbers per list, just not sure where to go from here
for i in df1.func_scores:
length = []
for j in i:
print(j)
一种
解决方案
只是apply
做np.mean
df['new_col'] = df.col.apply(lambda x : [[np.mean(y)] for y in x ])
df
Out[17]:
col new_col
0 [[0.73, 0.43, 0.5, 0.0], [0.39, 0.5], [0.37], ... [[0.415], [0.445], [0.37], [0.2725]]
1 [[0.53, 0.33, 0.2, 0.0], [0.79, 0.5], [0.96], ... [[0.265], [0.645], [0.96], [0.2725]]
推荐阅读
- api - 有什么方法可以在 API 测试工具中接收 API 调用?
- akka - Akka 中的无类型 ActorSystem 是什么?
- robotframework - ${time} = 获取时间 time=NOW + 1h 2min 3s # 1h 2min 3s 添加到本地时间
- r - 在数据框R中创建日期序列作为新列
- jenkins - 何时在詹金斯 CI 中使用 jmeter 进行性能测试?
- javascript - 如何为 Bokeh 回调过滤器的一部分编写 Javascript 代码,以便我可以按数字和类别进行过滤?
- primes - 使用 Raku 中的惰性列表获取前 10 位素数
- android - 我是编码 Android 工作室的新手。我试图实现 PlacePicker
- tfs - 从 Windows 10 客户端上的大文件下载 TFS 2018 Web 访问不再可能
- python - 每列的数据类型或 dtype 是否正确设置?好吧,我理解这个问题,但我几乎没有疑问