python - 从两个可变长度的字符串数组返回相似度矩阵(scipy 选项?)
问题描述
假设我有两个数组:
import numpy as np
arr1 = np.array(['faucet', 'faucets', 'bath', 'parts', 'bathroom'])
arr2 = np.array(['faucett', 'faucetd', 'bth', 'kichen'])
我想计算 in 中的字符串与 inarr2
中的字符串的相似度arr1
。
arr1
是一个正确拼写的单词数组。
arr2
是单词字典中无法识别的单词数组。
我想返回一个矩阵,然后将其转换为 pandas DataFrame。
我目前的解决方案(信用):
from scipy.spatial.distance import pdist, squareform
from Levenshtein import ratio
arr3 = np.concatenate((arr1, arr2)).reshape(-1,1)
matrix = squareform(pdist(arr3, lambda x,y: ratio(x[0], y[0])))
df = pd.DataFrame(matrix, index=arr3.ravel(), columns=arr3.ravel())
输出:
faucet faucets bath parts bathroom faucett \
faucet 0.000000 0.923077 0.400000 0.363636 0.285714 0.923077
faucets 0.923077 0.000000 0.363636 0.500000 0.266667 0.857143
bath 0.400000 0.363636 0.000000 0.444444 0.666667 0.363636
parts 0.363636 0.500000 0.444444 0.000000 0.307692 0.333333
bathroom 0.285714 0.266667 0.666667 0.307692 0.000000 0.266667
faucett 0.923077 0.857143 0.363636 0.333333 0.266667 0.000000
faucetd 0.923077 0.857143 0.363636 0.333333 0.266667 0.857143
bth 0.222222 0.200000 0.857143 0.250000 0.545455 0.200000
kichen 0.333333 0.307692 0.200000 0.000000 0.142857 0.307692
faucetd bth kichen
faucet 0.923077 0.222222 0.333333
faucets 0.857143 0.200000 0.307692
bath 0.363636 0.857143 0.200000
parts 0.333333 0.250000 0.000000
bathroom 0.266667 0.545455 0.142857
faucett 0.857143 0.200000 0.307692
faucetd 0.000000 0.200000 0.307692
bth 0.200000 0.000000 0.222222
kichen 0.307692 0.222222 0.000000
这个解决方案的问题:我浪费时间计算我已经知道拼写正确的单词的成对距离比。
我想要的是传递一个函数arr1
和arr2
(可以是不同的长度!)并输出一个具有比率的矩阵(不一定是正方形)。
结果看起来像这样(没有计算开销):
>>> df.drop(index=arr1, columns=arr2)
faucet faucets bath parts bathroom
faucett 0.923077 0.857143 0.363636 0.333333 0.266667
faucetd 0.923077 0.857143 0.363636 0.333333 0.266667
bth 0.222222 0.200000 0.857143 0.250000 0.545455
kichen 0.333333 0.307692 0.200000 0.000000 0.142857
解决方案
我想你正在寻找cdist
:
import pandas as pd
import numpy as np
from scipy.spatial.distance import cdist
from Levenshtein import ratio
arr1 = np.array(['faucet', 'faucets', 'bath', 'parts', 'bathroom'])
arr2 = np.array(['faucett', 'faucetd', 'bth', 'kichen'])
matrix = cdist(arr2.reshape(-1, 1), arr1.reshape(-1, 1), lambda x, y: ratio(x[0], y[0]))
df = pd.DataFrame(data=matrix, index=arr2, columns=arr1)
结果:
faucet faucets bath parts bathroom
faucett 0.923077 0.857143 0.363636 0.333333 0.266667
faucetd 0.923077 0.857143 0.363636 0.333333 0.266667
bth 0.222222 0.200000 0.857143 0.250000 0.545455
kichen 0.333333 0.307692 0.200000 0.000000 0.142857
推荐阅读
- stripe-payments - Stripe 每次付款都会创建一个新客户
- c++ - 如何以可靠的方式将 std::vector 转换为 char **?
- c++ - clang vs gcc:使用运算符重载的函数查找
- python - Python逗号用于循环条件逗号分隔
- python - Google Cloud Storage - Python 客户端 - 获取 blob 的链接 URL
- reactjs - 使用 Material UI 向上滚动时,如何为导航添加背景颜色?
- audio - 为 WebM 视频添加静音轨道
- python-3.x - 使用来自 sql 的信息填充 Treeview?
- python - K 均值聚类 - 处理非数值数据
- c - 使用 c 安排警报