首页 > 解决方案 > 数据恢复到原始状态是什么意思?

问题描述

我已经开始学习机器学习,并且正在关注 Aurelien Geron 的Hands on machine learning with Scikit-learn Keras 和 Tensorflow

在第二章中,我通过一行代码

Now you should remove the income_cat attribute so the data is back to its original
state:

for set_ in (strat_train_set, strat_test_set):
    set_.drop("income_cat", axis=1, inplace=True)

我无法理解作者删除属性数据恢复原状的意思?

澄清一下,这是一个房价预测问题,median_income 是一个特征。median_income已通过income_cat 进行分类,用于分层抽样。

您可以在 Jupyter Notebook(作者提供)的以下链接中检查从 In[23] 到 In[31] 以获得更多说明:

https://github.com/ageron/handson-ml2/blob/master/02_end_to_end_machine_learning_project.ipynb

如果这个问题看起来很愚蠢,请原谅我。我是新手。

标签: machine-learning

解决方案


在书中它说你通过对原始数据进行一些计算来为数据添加一个新的收入类别“属性”。

然后,您稍后会删除此新属性以取回原始数据。删除它的唯一原因是他想取回他的原始数据。

换句话说,您从每个数据点的 x 个属性开始,(其中一个是“median_income”),您向每个数据点添加一个新属性(“income_cat”),因此您现在每个数据都有 x+1 个属性观点。然后您稍后删除数据点,因为他想取回他的原始数据。


推荐阅读