apache-spark - 使用 spark 写入大约 100 GB 的大型数据集,只有一个分区用于配置单元
问题描述
我正在尝试使用 spark 将大型数据集写入分区的配置单元表(按日期分区)。数据集仅产生一个日期,因此只有一个分区。写入表需要很长时间。它也会在写作时造成洗牌。我的代码不包含任何连接。它只有一些地图功能、过滤器和联合。如何高效地将此类数据写入 hive 表?在此处检查 spark UI 的图像
解决方案
推荐阅读
- reactjs - Redirect doesn;t work, while {this.props.history} does
- r - 在 case_when 中使用 ifelse 作为函数
- r - 使用 R 中的 data.table 的行平均值和每行的条目数
- android - radiogroup 的自定义圆形样式
- javascript - 嵌入谷歌地球,在卫星视图中创建网格布局
- react-native - 我如何使用 google api 在 react-native-maps 中显示准确的路线图
- file - 如何使用 Rust 截断或减少文件末尾的内容?
- windows - 在 Windows 操作系统中打开 Google Chrome 浏览器时创建多个实例
- python - 是否可以使用多线程使 OpenOpc 读取更快的 OPC 项目?
- vba - 在 VBA 中更改汉字的字体