首页 > 解决方案 > 我应该使用 EC2 虚拟机中的哪些参数来优化 H2O 的 XGBoost 性能?

问题描述

我正在尝试在 r4.8x large 上运行 H2O xgboost。但是运行时间太长(15 小时以上,而具有相同超参数网格大小的 GBM 需要 4 小时)。

知道 XGBoost 使用缓存优化,是否有任何特定的实例类型最适合 H2O 的 XGBoost 实现?

我的训练数据有 28K 行和 150 个二进制列。我正在运行网格搜索。

标签: amazon-web-servicesamazon-ec2xgboosth2oh2o.ai

解决方案


更改您的 EC2 实例不一定会使其更快。您需要了解瓶颈在哪里。查看日志并查看 GBM 与 XGBoost 的对比。XGBoost 是创建更深的树还是更多的树?这可能是两种算法之间的设置不同。检查所有超参数是否相似(尽可能接近)。

此外,XGBoost 使用 H2O 的 JVM 外部的内存。如H2O 的 XGBoost 文档的常见问题解答中所述,尝试添加-extramempercent 120和降低 H2O 内存。


推荐阅读