python-3.x - xgboost 错误:检查失败:!auc_error AUC:数据集仅包含 pos 或 neg 样本'
问题描述
我正在运行以下代码没有问题:
churn_dmatrix = xgb.DMatrix(data = class_data.iloc[:, :-1], label = class_data.Churn)
params = {'objective' : 'binary:logistic' , 'max_depth' : 4}
cv_results = xgb.cv(dtrain = churn_dmatrix, params = params, nfold = 4, num_boost_round = 1, metrics = 'error', \
as_pandas = True)
print(cv_results)
train-error-mean train-error-std test-error-mean test-error-std
0 0.395833 0.108253 0.375 0.414578
但是,当我将指标更改为“auc”时,我收到一条错误消息:
cv_results = xgb.cv(dtrain = churn_dmatrix, params = params, nfold = 4, num_boost_round = 5, metrics = 'auc', \
as_pandas = True)
---------------------------------------------------------------------------
XGBoostError Traceback (most recent call last)
<ipython-input-102-ea99ef0705b5> in <module>()
----> 1 cv_results = xgb.cv(dtrain = churn_dmatrix, params = params, nfold = 4, num_boost_round = 5, metrics = 'auc', as_pandas = True)
C:\ProgramData\Anaconda3\lib\site-packages\xgboost\training.py in cv(params, dtrain, num_boost_round, nfold, stratified, folds, metrics, obj, feval, maximize, early_stopping_rounds, fpreproc, as_pandas, verbose_eval, show_stdv, seed, callbacks, shuffle)
405 for fold in cvfolds:
406 fold.update(i, obj)
--> 407 res = aggcv([f.eval(i, feval) for f in cvfolds])
408
409 for key, mean, std in res:
C:\ProgramData\Anaconda3\lib\site-packages\xgboost\training.py in <listcomp>(.0)
405 for fold in cvfolds:
406 fold.update(i, obj)
--> 407 res = aggcv([f.eval(i, feval) for f in cvfolds])
408
409 for key, mean, std in res:
C:\ProgramData\Anaconda3\lib\site-packages\xgboost\training.py in eval(self, iteration, feval)
220 def eval(self, iteration, feval):
221 """"Evaluate the CVPack for one iteration."""
--> 222 return self.bst.eval_set(self.watchlist, iteration, feval)
223
224
C:\ProgramData\Anaconda3\lib\site-packages\xgboost\core.py in eval_set(self, evals, iteration, feval)
953 dmats, evnames,
954 c_bst_ulong(len(evals)),
--> 955 ctypes.byref(msg)))
956 res = msg.value.decode()
957 if feval is not None:
C:\ProgramData\Anaconda3\lib\site-packages\xgboost\core.py in _check_call(ret)
128 """
129 if ret != 0:
--> 130 raise XGBoostError(_LIB.XGBGetLastError())
131
132
XGBoostError: b'[14:27:23] src/metric/rank_metric.cc:135: Check failed: !auc_error AUC: the dataset only contains pos or neg samples'
似乎所有的预测都是正面的或负面的。我对么?有什么我可以做的吗?
解决方案
当 xgboost 尝试拆分为训练/验证并且在其中一个拆分中它没有负样本或正样本(在训练集或验证集中)时,问题就出现了。
我看到您可以采取 2 种快速方法:
- 你可以检查你有多少正面例子和负面例子,并获得更多你错过的例子。复制你缺乏的那些例子对你来说会更容易和更快。例如,如果您有 99% 的负例和 1% 的正例,您可能希望将每个正例复制 99 次(这是 的乘积
99/1
)。 - 您可以自己创建交叉验证,从而获得对拆分的控制权,并为每个拆分强制使用负样本和正样本。
推荐阅读
- node.js - Express、Docker 和 Nginx - Express 中未显示真实 IP
- apache-spark - 使用 Spark 和 Hive 运行简单示例会引发异常
- python - 运行基于用户输入的成绩管理系统。文件输入/输出
- amazon-web-services - 使用nodejs将数据上传到redshift
- python - Python模块'asyncio'没有属性'to_thread'
- python - 如何让我的播放器与平台的侧面和底部发生碰撞
- php - 函数“wordpress中的add_submenu_page连接到主页而不是子菜单页面
- python - 当我运行它时它没有错误,但是因为机器人读取了 webhook,机器人然后删除了 webhook 并重复发送
- discord - discord.py 如何在服务器之间克隆频道?
- r - 在 R 中将两个表汇总为一个新表