python-3.x - 如何修复此代码以使其根据用户名平均相似度?
问题描述
我正在使用 Python 3.6 并遇到问题。我会解释的。我有一个名为 test_data_sample 的数据框,它有两个变量,“用户”和“文本”。有两个不同的用户,但每个用户都写了几篇文章。下面是一个例子:
User Text
user1 legit thank later
user1 I dont care
user2 Fried eggs
User3 it should be ok
User4 I do not like his assumptions
User4 I hate rugby
我有一个模型及其 3 个簇质心,我想计算每个“文本”与质心之间的距离。到目前为止的代码词,但我面临的问题是每个用户的相似度平均值。例如
user1 legit thank later
Distance to cluster 0.3
Distance to cluster 0.6
Distance to cluster 0.4
user1 I dont care
Distance to cluster 0.1
Distance to cluster 0.9
Distance to cluster 0.80
user2 Fried eggs
Distance to cluster 0.4
Distance to cluster 0.4
Distance to cluster 0.33
User3 it should be ok
Distance to cluster 0.4
Distance to cluster 0.54
Distance to cluster 0.6
User4 I do not like his assumptions
Distance to cluster 0.3
Distance to cluster 0.34
Distance to cluster 0.1
User4 I hate rugby
Distance to cluster 0.6
Distance to cluster 0.4
Distance to cluster 0.5
理想情况下,我希望用户一的输出如下:
user1 legit thank later
Distance to cluster 0.3
Distance to cluster 0.75
Distance to cluster 0.6
这是每个距离的平均值。用户 1 有两个“文本”,因此值到每个集群的每个距离的总和除以 2。用户 4 也将除以 2,用户 2 和 3 保持原样。
期待您的回复。
解决方案
推荐阅读
- paypal - 何时使用 IPN 以及何时在 PayPal 中使用 WebHooks 作为通知机制?
- java - ant fixcrlf 包含/排除不起作用
- wordpress - Wordpress - 如何根据内容动态设置标题?
- javascript - 我怎么知道 Vue.js 环境是开发环境还是生产环境?
- laravel - 使用 Stripe 和 Laravel Cashier 一次性收费并重复收费
- vba - 将范围导出到新 Excel 文档 VBA
- gitlab - gitlab中项目和子组之间的区别
- java - 无法解析方法“getData()”
- sql - 我有 2 列 V_DATE 和 OTP.... V_DATE 24 小时后我想设置 OTP 列 =0
- javascript - Stenciljs @Method 不工作