cluster-analysis - 如何在句子嵌入上应用聚类?
问题描述
我想用原始文档的要点创建一个摘要。为此,我使用通用句子编码器(https://tfhub.dev/google/universal-sentence-encoder/2)制作了句子嵌入。之后,我想对我的向量应用聚类。
我试过图书馆sklearn
:
import numpy as np
from sklearn.cluster import KMeans
n_clusters = np.ceil(len(encoded)**0.5)
kmeans = KMeans(n_clusters=n_clusters)
kmeans = kmeans.fit(encoded)
但我收到一条错误消息:
'numpy.float64' object cannot be interpreted as an integer'
解决方案
问题是在这一行引起的:
n_clusters = np.ceil(len(encoded)**0.5)
kmeans
期望收到一个integer
集群的数量,所以只需添加:
n_clusters = int(np.ceil(len(encoded)**0.5))
推荐阅读
- sas - SAS 在日志中打印一个值
- python - 使用元组作为缓存键的 Python 函数中的手动记忆
- optaplanner - Optaplanner:根据 PlanningSolution 属性动态定义约束
- assembly - 理解从简单的 Rust 结构生成的程序集
- python - 属性错误:无法获取属性“BrainSet”
在朱庇特 - git - 一个实例中的 IntelliJ Git 结帐损坏了另一个实例中打开的项目
- python - 函数递归 TypeError 中的 DataFrame.duplicated() 错误:duplicated() 为参数“keep”获取了多个值
- java - JTA中事务管理器的具体流程是什么
- c# - 如何节省统一花费的最少时间?
- azure-active-directory - MS Teams Bot:对于来自 BotBuilder-Samples 的 Teams 对话机器人,网络聊天中的测试未经授权