首页 > 解决方案 > dask - 应用 map_partitions 清理文本返回“'Series' 对象没有属性 'columns'”

问题描述

我正在尝试使用小写我的训练数据map_partition。尝试打印数据帧的头部时,它一直向我返回错误。我缺少什么来应用我的清洁功能

def clean_text(df):
    df['X_trn'] = df['X_trn'].apply(lambda text:text.lower())
    return df

training = training.map_partitions(clean_text, meta=object)

标签: pythondask

解决方案


最好的办法是使用以下一个:


df['X_trn'] = df['X_trn'].str.lower()

如果您必须使用 map_partitions,请尝试以下一个 - 这将在您的数据框分区中并行工作:


df['X_trn'] = df['X_trn'].map_partitions(lambda x: x.lower())


推荐阅读