pandas - 为什么smogn非常慢?
问题描述
我正在使用 smoter 来平衡我的回归数据。我有 130k 个样本、3 个特征列和 1 个目标列。Smoter 需要很长时间才能平衡数据。例如,通过学习分类,它需要几秒钟。我做错了什么还是只是数据的大小?smoter 估计平衡所有数据的时间约为 20 小时。我还检查了例如 20% 的数据的情况如何,因此 13k 个样本,估计时间约为 2 小时......
import smogn
smogn.smoter(
## main arguments
data = df_gonzalez_healthy, ## pandas dataframe
y = 'healthy', ## string ('header name')
k = 9, ## positive integer (k < n)
samp_method = 'extreme', ## string ('balance' or 'extreme')
## phi relevance arguments
rel_thres = 0.80, ## positive real number (0 < R < 1)
rel_method = 'auto', ## string ('auto' or 'manual')
rel_xtrm_type = 'high', ## string ('low' or 'both' or 'high')
rel_coef = 2.25 ## positive real number (0 < R)
)
解决方案
我不认为您做错了什么,实际上许多用户都是如此。
这可能是因为很多 for 循环。
作者/开发者已经说过他正在努力提高 smogn 的效率。
推荐阅读
- visual-c++ - 如何使用其他预处理器指令定义宏?
- postgresql - 忽略 Postgres 插入中不存在的列?(用于开发目的)
- javascript - JavaScript 警报未显示在浏览器页面中,但显示在屏幕右侧
- marklogic-corb - MarkLogic CORB - 如何在运行 corb 时避免超时
- matlab - matlab deploytool 生成的独立应用程序/使用 OPC 编译在主机系统中失败
- java - Spring Integration Java DSL 使用多个“.channel()”的行为
- sql - ms-access sql-query 中是否有可以提取某个字符串的函数?
- typescript - 如何使用动态字段名称创建 Formik YUP 模式?
- spring-boot - 关于将 spring-data-rest-hal-browser 依赖项添加到我的 Spring Boot 应用程序(v 2.2.4)-我的应用程序无法启动。如何修复它?
- ionic-framework - Ionic 4 拦截 android 后退按钮进行导航