apache-spark - 如何制作小写并删除pyspark中的原始列?
问题描述
我有一个非常大的数据测试。包含文本。我想让它全部小写我这样做了:
df1=df.select("*", lower(col('name')))
但它创建了一个名为 lower(name) 的新列。我不想保留上一栏。所以我删除了这个:
df2=df1.drop(*'title_split')
但是删除它需要很多时间。我怎样才能让它更快?我可以让它小写而不保留前一个吗?
解决方案
您可以使用withColumn
替换旧列:
df1 = df.withColumn('name2', lower(col('name'))).drop('name')
推荐阅读
- python - wxPython 网格小部件底部和网格边框内的不需要的空间
- angular - 在 Angular 中使用 FontAwesome Pro
- laravel - Laravel show 方法输出空对象
- python - 在 python trie 中存储字数
- reactjs - 减速器未执行
- javascript - 手机屏幕上的菜单有问题
- angular - Angular Material 微调器不适用于同步调用
- nuget - Squirrel 中的 NuGet 框架定位
- javascript - 调整窗口大小后移动导航下拉菜单不会消失
- android - 添加回溯在 WebRTC 上不起作用