python - dask - 应用 map_partitions 清理文本返回“'Series' 对象没有属性 'columns'”
问题描述
我正在尝试使用小写我的训练数据map_partition
。尝试打印数据帧的头部时,它一直向我返回错误。我缺少什么来应用我的清洁功能
def clean_text(df):
df['X_trn'] = df['X_trn'].apply(lambda text:text.lower())
return df
training = training.map_partitions(clean_text, meta=object)
解决方案
最好的办法是使用以下一个:
df['X_trn'] = df['X_trn'].str.lower()
如果您必须使用 map_partitions,请尝试以下一个 - 这将在您的数据框分区中并行工作:
df['X_trn'] = df['X_trn'].map_partitions(lambda x: x.lower())
推荐阅读
- laravel - 创建一个 websocket 系统供第三方用户连接
- java - 如何使用 JNA 导入依赖于 Java 中其他 dll 的 dll
- visual-studio-2019 - Visual Studio 2019 没有向我展示 .NET Standard 2.1 和 .NET Core 3.1 作为 Target Framework 的一部分。.NET Core 3.1 安装在我的系统上
- groovy - 我们可以将指定的类 jar 文件从另一个 mincroanut 项目导入到 micronaut 项目吗
- java - 如何使用 springboot-rest api 发送响应或请求状态
- xml - 解析前导 XML 注释
- pyspark - 启用进程隔离的集群尚不支持 Databricks Connect
- php - PHP XML 请求
- azure - Azure ML 推理架构 - “列表索引超出范围”错误
- c# - 在 C# 中使用 for 循环添加属性