首页 > 解决方案 > 如何计算向量集合之间的成对欧几里得距离

问题描述

我有一个像这样的熊猫数据框。其中索引是 pd.DatetimeIndex,列是时间序列。

x_1 x_2 x_3
2020-08-17 133.23 2457.45 -4676
2020-08-18 -982 -6354.56 -245.657
2020-08-19 5678.642 245.2786 2461.785
2020-08-20 -2394 154.34 -735.653
2020-08-20 236 -8876 -698.245

我需要计算所有列之间的欧几里得距离。即 (x_1 - x_2), (x_1 - x_3), (x_2 - x_3),并返回一个正方形数据框,如下所示:(请注意,此表中的值只是一个示例,而不是欧几里得的实际结果距离)

x_1 x_2 x_3
x_1 0 123 456
x_2 123 0 789
x_3 456 789 0

我尝试了这个资源,但我不知道如何传递我的 df 的列。如果理解正确,该示例将行作为序列传递以计算 ED。

标签: pythonpandasdistanceseries

解决方案


实现此目的的明确方法是:

from itertools import combinations

import numpy as np

dist_df = pd.DataFrame(index=df.columns, columns=df.columns)

for col_a, col_b in combinations(df.columns, 2):
    dist = np.linalg.norm(df[col_a] - df[col_b])
    dist_df.loc[col_a, col_b] = dist
    dist_df.loc[col_b, col_a] = dist

print(dist_df)

输出

              x_1           x_2           x_3
x_1           NaN  12381.858429   6135.306973
x_2  12381.858429           NaN  12680.121047
x_3   6135.306973  12680.121047           NaN

如果你想0而不是NaN使用DataFrame.fillna

dist_df.fillna(0, inplace=True)

推荐阅读