python - 在 Python 中计算相关性的问题
问题描述
我有以下数据框
我需要计算所有列的相关矩阵。问题是:当我分别计算两列时,我得到的值与我使用 df.corr() 为每一对一起计算时得到的值不同。
我构建数据框的方式是将第一列与其他列合并,这种合并过程导致了两乘两数据框的不同行长。
例如:第一列(btc_logreturns)和第二列(gold_logreturns)原来有2000行,而btc_logreturns和ewz_logreturns有2100行。但所有列共有 2459 行。
计算相关性时,函数 .corr() 是否考虑了 NaN?对于我得到的不同相关值,数据帧的长度是否是一个潜在问题?
解决方案
问题可能在于这些数据帧的索引不对齐,这意味着一个数据帧中存在的某些索引在另一个数据帧中不存在,反之亦然。
如果索引确实有意义,请使用合并数据框的结果。另一方面,如果索引没有意义,则合并原始数据帧,使用pd.concat([df_1, df_2], ignore_index=True)
它将忽略原始数据帧中的索引。
推荐阅读
- angular - 从Angular中的父路由组件向当前子路由添加查询参数
- sql - 有没有办法计算两次相同的日期列?
- angular - ngx-分页中的编号
- c++ - 在 C++ 中为无序映射获取给定输入键的错误值
- javascript - Javascript 将对象值收集到按属性分组的数组中
- vb.net - String() 类型的值无法转换为 ArrayList
- java - 我可以在没有 root 的情况下使用辅助功能 API 在我自己的应用程序之外触发触摸事件吗?
- javascript - 在 d3 图表上拖动时仅更新最后一个 Y 轴
- php - DataTables 警告:table id=datatable - Ajax 错误。使用 laravel
- python - 有没有办法让 Mock() 返回有关调用参数的不同对象?