首页 > 技术文章 > 数据集之转换器以及估计器

wydxry 2018-12-24 20:49 原文

数据集的结构:特征值+目标值 (有些可以没有目标值)

数据集:uci kaggle

数据处理工具:pandas sklearn

缺失值 重复值 不需要处理

 

转换器是一类实现了特征工程的API:

 

估计器是一类实现了算法的API:

 

测试代码:

from sklearn.preprocessing import StandardScaler
# 转换器以及估计器
s = StandardScaler()
data = s.fit_transform([[1, 2, 3], [4, 5, 6]])
print(data)

ss = StandardScaler()
print(ss.fit([[1, 2, 3], [4, 5, 6]]))
print(ss.transform([[1, 2, 3], [4, 5, 6]]))

print(ss.fit([[2, 3, 4], [4, 5, 7]]))
print(ss.transform([[1, 2, 3], [4, 5, 6]]))

运行结果:

 

推荐阅读