首页 > 解决方案 > 如果数据框为空,熊猫应用函数(UDF)无法返回多个值

问题描述

我希望能够从 pandas UDF(应用函数)返回多个列。这很好用,只要数据框不为空!如果它是空的,它会失败:not enough values to unpack (expected 3, got 0)。这是否被视为熊猫中的错误?还是应该强制用户在执行函数之前手动检查过滤后的数据帧的长度?或者有没有更好的方法来避免遇到这个问题?

import pandas as pd

df = pd.DataFrame({'foo':[1,2,3], 'bar':[4,5,6]})

def my_function(x):
    #print(x)
    # some computation
    # returns multiple values (tuple)
    # simplified here
    return 1,1,1

df = df[df.foo > 10]
df['r1'], df['r2'], df['r3'] = zip(*df.apply(my_function, axis=1))
df

标签: pythonpandasapplyuser-defined-functions

解决方案


一种解决方案是与pd.concat结合使用result_type='expand'

cols = {0: 'r1', 1: 'r2', 2: 'r3'}
df = pd.concat([df, df.apply(my_function, axis=1, result_type='expand')], axis=1).rename(columns=cols)

之后您必须重命名这些列。此外,生成的空数据框重复前两列:

输出:

    foo bar foo bar

相对

    foo bar

两个数据框都是空的,因此您可能不感兴趣。


我认为检查 pandas 中的空数据框是一种很好的做法。所以,评论中的 Siddhants 解决方案很好。


推荐阅读