data-science - 什么时候应该在数据处理中使用 Data Binning?
问题描述
在数据预处理中,数据分箱是一种将特征的连续值转换为分类值的技术。例如,有时,age
数据集中的特征值被替换为间隔之一,例如:
[10,20),
[20,30),
[30,40].
何时是使用数据分箱的最佳时间?它是否(总是)在预测系统中产生更好的结果,或者它可以作为试错法工作?
解决方案
Trial and error mostly. When you apply binning to a continuous variable you automatically throw away some information. Many algorithms would prefer a continuous input to make a prediction and many would bin the continuous input themselves. Binning would be wise to apply if your continuous variable is noisy, meaning the values for your variable were not recorded very accurately. Then, binning could reduce this noise. There are binning strategies such as equal width binning or equal frequency binning. I would recommend avoiding equal width binning when your continuous variable is unevenly distributed.
推荐阅读
- php - 如何使用嵌套的 PHP 对象仅将第一级编码为 JSON
- python-3.x - 使用“@pytest.mark.parametrize”夹具调用类级别变量
- php - 如何将我的 azure Web App PHP 版本 7.2 更改为 7.1?
- android - 我可以在两个活动之间共享布局 xml(将数据绑定与 MVVM 模式一起使用)
- css - 在 Vuetify 中设置活动类的样式
- python - 如何使用 Jetson nano GPIO 在 GPIO.TEGRA_SOC 模式与 GPIO.BCM 模式下设置 gpio 引脚?
- asynchronous - 如何转换未来
诠释? - javascript - 如何在html表格中创建多维数组
- arrays - 将 pandas 数据框中的一维数组转换为数字
- arrays - 我们如何在 MongoDB 中合并嵌套的子文档数组(数组中的数组)