首页 > 解决方案 > 为什么smogn非常慢?

问题描述

我正在使用 smoter 来平衡我的回归数据。我有 130k 个样本、3 个特征列和 1 个目标列。Smoter 需要很长时间才能平衡数据。例如,通过学习分类,它需要几秒钟。我做错了什么还是只是数据的大小?smoter 估计平衡所有数据的时间约为 20 小时。我还检查了例如 20% 的数据的情况如何,因此 13k 个样本,估计时间约为 2 小时......

import smogn
smogn.smoter(
    
    ## main arguments
    data = df_gonzalez_healthy,           ## pandas dataframe
    y = 'healthy',          ## string ('header name')
    k = 9,                    ## positive integer (k < n)
    samp_method = 'extreme',  ## string ('balance' or 'extreme')

    ## phi relevance arguments
    rel_thres = 0.80,         ## positive real number (0 < R < 1)
    rel_method = 'auto',      ## string ('auto' or 'manual')
    rel_xtrm_type = 'high',   ## string ('low' or 'both' or 'high')
    rel_coef = 2.25           ## positive real number (0 < R)
)

标签: pandassmote

解决方案


我不认为您做错了什么,实际上许多用户都是如此。

这可能是因为很多 for 循环。

作者/开发者已经说过他正在努力提高 smogn 的效率。


推荐阅读