首页 > 解决方案 > 如何修复此代码以使其根据用户名平均相似度?

问题描述

我正在使用 Python 3.6 并遇到问题。我会解释的。我有一个名为 test_data_sample 的数据框,它有两个变量,“用户”和“文本”。有两个不同的用户,但每个用户都写了几篇文章。下面是一个例子:

User  Text
user1 legit thank later
user1 I dont care 
user2  Fried eggs
User3 it should be ok 
User4 I do not like his assumptions 
User4 I hate rugby

我有一个模型及其 3 个簇质心,我想计算每个“文本”与质心之间的距离。到目前为止的代码词,但我面临的问题是每个用户的相似度平均值。例如

user1 legit thank later
Distance to cluster 0.3
Distance to cluster 0.6
Distance to cluster 0.4

user1 I dont care 
Distance to cluster 0.1
Distance to cluster 0.9
Distance to cluster 0.80

user2  Fried eggs
Distance to cluster 0.4
Distance to cluster 0.4
Distance to cluster 0.33

User3 it should be ok
Distance to cluster 0.4
Distance to cluster 0.54
Distance to cluster 0.6

User4 I do not like his assumptions
Distance to cluster 0.3
Distance to cluster 0.34
Distance to cluster 0.1

User4 I hate rugby
Distance to cluster 0.6
Distance to cluster 0.4
Distance to cluster 0.5

理想情况下,我希望用户一的输出如下:

user1 legit thank later
Distance to cluster 0.3
Distance to cluster 0.75
Distance to cluster 0.6

这是每个距离的平均值。用户 1 有两个“文本”,因此值到每个集群的每个距离的总和除以 2。用户 4 也将除以 2,用户 2 和 3 保持原样。

期待您的回复。

标签: python-3.xdata-science

解决方案


推荐阅读