machine-learning - 数据恢复到原始状态是什么意思?
问题描述
我已经开始学习机器学习,并且正在关注 Aurelien Geron 的Hands on machine learning with Scikit-learn Keras 和 Tensorflow。
在第二章中,我通过一行代码
Now you should remove the income_cat attribute so the data is back to its original
state:
for set_ in (strat_train_set, strat_test_set):
set_.drop("income_cat", axis=1, inplace=True)
我无法理解作者删除属性和数据恢复原状的意思?
澄清一下,这是一个房价预测问题,median_income 是一个特征。median_income已通过income_cat 进行分类,用于分层抽样。
您可以在 Jupyter Notebook(作者提供)的以下链接中检查从 In[23] 到 In[31] 以获得更多说明:
https://github.com/ageron/handson-ml2/blob/master/02_end_to_end_machine_learning_project.ipynb
如果这个问题看起来很愚蠢,请原谅我。我是新手。
解决方案
在书中它说你通过对原始数据进行一些计算来为数据添加一个新的收入类别“属性”。
然后,您稍后会删除此新属性以取回原始数据。删除它的唯一原因是他想取回他的原始数据。
换句话说,您从每个数据点的 x 个属性开始,(其中一个是“median_income”),您向每个数据点添加一个新属性(“income_cat”),因此您现在每个数据都有 x+1 个属性观点。然后您稍后删除数据点,因为他想取回他的原始数据。
推荐阅读
- java - 当我尝试使用 Jsoup 在课堂上获取超过 1 个文档时,为什么会出现 handshake_failure 错误?
- python - DRF 中的 CART 功能
- python-3.x - 如何使用正则表达式计算文本文件中出现的所有短语?
- openmdao - 轨迹中链接的 OpenMDAO 阶段是否需要具有相同的转录?
- java - 使用 JAXB XMLStreamReader 防止 XXE 攻击
- python - Sympy Linsolve 出乎意料的结果
- java - Launch4j 不显示 UTF-8 字符
- javascript - 如何在输入字段中写入值帮助数据?
- scala - IntelliJ IDEA 2020.3 Scala 插件不适用于新项目
- azure - 使用 Powershell 跟踪 Azure Blob 容器日志