首页 > 解决方案 > Sagemaker 中的 RandomCutForest 超参数值限制太小

问题描述

我正在尝试在 Sagemaker 中使用 RandomCutForest,数据如下:

问题是 RandomCutForest 超参数有以下限制(https://docs.aws.amazon.com/sagemaker/latest/dg/rcf_hyperparameters.html)。

由于超参数限制,我认为 RandomCutForest 不适合如上所述的大型数据集。即使您为这些超参数设置最大值,与 420000 行数据相比,2048 num_samples_per_tree 也太小了。

我想知道为什么 Sagemaker 的 RandomCutForest 有这样的限制(由于性能问题、硬件能力或任何其他原因?),即使 sklearn 中的 IsolationForest 没有这样的限制。 https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.IsolationForest.html

如果有任何解决此问题的方法,请告诉我。

标签: machine-learningamazon-sagemaker

解决方案


选择最佳值num_samples_per_tree取决于您的应用程序和数据集。此参数与数据集中异常的预期密度有关。具体来说,您应该选择num_samples_per_tree1/num_samples_per_tree大致接近数据中异常数据点的比率。举个例子来说明这一点,如果每棵树使用 10 个样本,那么您应该期望您的数据集包含 1/10 时间的异常。请注意,在大多数应用中,该参数的最小值和最大值所涵盖的范围应该足以产生该算法的最佳性能。


推荐阅读