arrays - 火花数据框从数组中选择一个元素,但该值不是正确的
问题描述
df.select($"onenews".getItem(1), $"onenews").show(5,false)
结果显示如下,字段值getItem(1)不正确,我得到的“onenews”列来自字符串的拆分部分。
我知道原因,这是因为 spark 的惰性计算,onenews 的列是从包含 shuffle 的函数计算的。
解决方案
我没有清楚地理解你的问题,根据我的理解,如果你想从 onenews 列中获取第 0 个元素,你需要使用 getItem(0) insted of getItem(1)。
示例代码:
df.select(df.col("onenews").getItem(0)).show()
推荐阅读
- java - 如何在 MaterialCalendarView 中显示特定日期和时间的事件?
- c++ - 如何实现非递归填充算法
- javascript - javascript找不到blob
- laravel - Laravel 与日期时间选择器
- command-line - 如何从命令行运行带有程序名但没有路径的python程序?
- response - 让谷歌助手用另一种语言回复
- web-services - 向医疗卡系统发送医疗费用(在意大利)
- google-cloud-storage - 如何使用 Google Cloud Storage 作为 Delta Lake 的存储层?
- javascript - 打字稿中相同实现的不同返回类型推断
- append - 我正在尝试附加一个列表