apache-spark - 考拉 sort_index 增加 spark 分区
问题描述
我是考拉的新手,我很惊讶当我使用方法 sort_index() 和 sort_values() 时,火花分区会自动增加。
例子:
import databricks.koalas as ks
df = ks.DataFrame({'B': ['B2', 'B3', 'B6', 'B7'],
'D': ['D2', np.nan, 'D6', 'D7'],
'F': ['F2', 'F3', 'F6', 'F7']},
index=[0, 3, 6, 7])
print(df.spark.repartition(2).to_spark().rdd.getNumPartitions())
输出:
2
如果我使用随机列(或索引)进行排序,例如
print(df.spark.repartition(2).sort_values(by='B').to_spark().rdd.getNumPartitions())
输出:
4
为什么会发生这种情况?
我还尝试使用更大的数据集,并且分区增加更多(从 12 到 200)
解决方案
推荐阅读
- sql - 在同一个 select 语句中引用创建的列
- sql - Azure SQL 不允许登录已创建的客户端
- javascript - 为什么我会使用此事件侦听器代码获取对象 HTMLButtonElement?
- java - 如何在不同项目之间共享 wsdl 和 xsd 文件?
- numbers - Intl.NumberFormat 没有做数百万正确
- python - re_path django 3中的正则表达式
- gatsby - 无法将图像添加到 Gatsby 中的 mdx 文件
- python - 当问题在 Python 的纸浆库中解决后状态为 -1 时,这意味着什么?
- r - 计算组内观测值之间的最小距离
- python - 为什么我的 MySQL 数据库在运行 cron 作业时断开连接?