apache-spark - 过滤 PySpark 数据框会弄乱顺序
问题描述
有谁知道为什么会这样?
当我过滤它时:
编辑:这就是我添加最后两列的方式。在我看来,因为我使用 pandas_udf 生成最后两列,所以有些疯狂,而我可以毫不费力地过滤前四列,这是我使用普通 udf 构建的。
@pandas_udf('string', PandasUDFType.SCALAR)
def blocking(ids,x,y):
....
return pd.Series(final)
df4 = df3.withColumn('blocking_index', \
blocking(df3.id,df3.ratepayer,df3.CharityName))
解决方案
推荐阅读
- javascript - 将焦点移至下一个输入元素
- odbc - 在 odbc 和 snowsql 中设置数据库大小?
- vb.net - 如何从 VB.NET 运行 DOS/CMD/命令提示符命令并希望将其终端输出保持几秒钟?
- ffmpeg - FFMPEG 裁剪边界动画
- sas - 基于其他几个列的总和列 - SAS
- ruby-on-rails - Rails:按合同设计/团队合作/功能依赖
- python - 使用 Pandas 合并某些行的列数据
- node.js - 在 Discord Webhook 上嵌入图像时出现问题(图像托管在 Wordpress 网站上)
- r - 如何使用 future.callr 抑制随机数生成警告?
- windows - CMake 错误:无法创建命名生成器 Visual Studio 16 2019