python - Python Pandas加权虚拟变量?
问题描述
有没有办法使用熊猫获得加权虚拟变量?我有两个数据框,一个带有分类值,另一个带有连续变量...
df1 = pd.DataFrame(data=[[1., 3., 2.], [2., 1.], [0.], [0., 2., 2.], [0., 2.]])
df2 = pd.DataFrame(data=[['a', 'c', 'd'], ['a', 'b'], ['c'], ['b', 'c', 'd'], ['a', 'b']])
这个想法是获得一个虚拟数据帧,但使用加权虚拟变量......意思是:对于第 0 行,1.0 + 3.0 + 2.0 = 100%......虚拟变量应该是,而不是 0 和 1:
a = 1.0/6.0
c = 3.0/6.0
d = 2.0/6.0
每个结果都应该是虚拟数据帧。
我实际上拥有的是0或1,如果是NaN则为0,如果存在则为1...
dummies = pd.get_dummies(df2, columns=[0,1,2])
我打算做的是获得相同的矩阵......但是,而不是1s和0s获得加权虚拟变量......a,b和c对我的模型具有不同的重要性......
解决方案
推荐阅读
- c - 高效计算数据流的最大值和最小值
- ios - Xcode 签名无法创建配置文件
- python - 如何从命令行使用 pip 指定两个索引 url 和两个受信任的主机?
- c++ - 函数执行期间未定义的行为
- dagger-hilt - 如何在 Hilt/Dagger App 中设置 UI 测试?
- c# - 带有变量路径的 WPF ItemsControl 数据绑定
- apache-spark - Kafka 中的 Spark 偏移管理
- reactjs - React:动态导入 css
- laravel - Laravel - 没有发件人地址无法发送消息
- delphi - 无法在应用程序服务器 delphi 的 DLL 中调试数据模块