python - 线性回归缩放特征
问题描述
我想做一个线性回归。
我的特点是这样的:
Marketcap EBIT Margin Price to Book Ratio EPS Growth
5.589918e+08 23.05 8.71 7.16
5.572475e+08 65.00 9.68 - 18.44
8.639290e+09 7.8 12.74 - 55.00
在进行线性回归时,我确实必须对特征进行缩放,尤其是当它们具有像 Marketcap 和其他特征这样不同的比例时,对吗?
EPS 增长的负值是怎么回事?在此示例中执行特征缩放的最佳方法是什么?
解决方案
从文档:
通过去除均值和缩放到单位方差来标准化特征
这意味着,给定输入 x,将其转换为 (x-mean)/std(其中所有维度和操作都已明确定义)。
因此,即使您的输入值都是正数,移除平均值也会使其中一些值为负数:
>>> x = np.array([3,5,7])
>>> np.mean(x)
5.0
>>> x - np.mean(x)
array([-2., 0., 2.])
更多细节:
http://yann.lecun.com/exdb/publis/pdf/lecun-98b.pdf(第 4.3 节) http://scikit-learn.org/stable/modules/preprocessing.html#standardization-or-mean-去除和方差缩放 http://www.faqs.org/faqs/ai-faq/neural-nets/part2/section-16.html
推荐阅读
- python - 将 X+2 列(X 右侧两个)中的值复制到 X 列
- scala - 如何使用 Spark-Submit 运行 EMR 集群主节点上的 scala 文件?
- outlook - OWA 消息撰写来自加载项的来源检测
- git - 创建分支时如何创建git分支并一次切换
- linux - 如何迭代从 ls 命令返回的一些文件名?
- ffmpeg - 从相机记录,保存到文件,并访问最后记录的帧
- php - WooCommerce Checkout 中的自定义总储蓄金额显示问题
- python - How can I make python continuously check for an item in a text file
- xml - 我有一个 kml xml 实例,它可以在某些引擎上很好地验证,但在其他引擎上验证失败。哪一个是对的?
- python - 比较 DataFrame 中的行