logistic-regression - 多项逻辑回归中系数的明显异常
问题描述
我看到一些结果表明我对多项逻辑回归的理解存在明显的概念差距,我正在寻求解释。
我正在对因变量具有三个级别的数据集执行多项逻辑回归。我首先对因变量 y(水平 y1、y2 和 y3)和一个分类自变量 x(水平 x1 和 x2)之间的关系进行交叉制表。显示逐行百分比的 x 和 y 交叉表如下所示:
y
--------------------
| y1 y2 y3
|--------------------------
| x1 | 47.6 28.4. 23.9
x | x2 | 26.1 21.4. 52.5
从上表可以清楚地看出,当 x = x2 时,y3 的概率远高于 x = x1 时的概率。此外,当 x = x2 时,y3 相对于 y1 的几率也比 x = x1 时高得多。
然后,我运行了一个多项逻辑回归,其中除了 x 之外还有几个自变量,其中 y = y1 和 x = x1 作为参考值。我从回归中得到了以下 x 系数:
====================================================
Dependent variable:
----------------------------
y2 y3
----------------------------------------------------
x_x2 1.079*** -0.484***
----------------------------------------------------
从系数中,我可以看到当 x 从 x1 变为 x2 时,y3 相对于 y1 的对数几率将减少0.484。考虑到在上面的交叉表中 y3 相对于 y1 的几率对于 x = x2 比对于 x = x1 高得多,这似乎是一个异常。当然,我知道在回归中,我使用了许多其他自变量,这些可能会产生影响,但我无法看到这种影响是如何产生的。
如果有人能更清楚地了解其他自变量的存在如何导致这样的事情发生,我将不胜感激。
解决方案
推荐阅读
- python - 全局禁用 TensorFlow 断言?
- c++ - Julia:调用使用自定义内核的 ArrayFire 自定义函数,ArgumentError:无法将 NULL 转换为字符串
- python - 从文本文件创建一个字典,其中包含一个键和一个由多个属性组成的集合
- mysql - SELECT * 和 SELECT 显式列之间是否存在运行时差异?
- excel - DAX 自定义数字格式
- database - 如何为 knp 分页器写一个好的 dql
- c++ - 没有虚拟方法的模拟类
- c - Why my 'mergesort' fails at large # of numbers?
- sql-server - 如何制作 F# SQLProvider 源文件 (.fs)?
- mysql - Mysql 按行数进行子选择