首页 > 解决方案 > 如何在句子嵌入上应用聚类?

问题描述

我想用原始文档的要点创建一个摘要。为此,我使用通用句子编码器(https://tfhub.dev/google/universal-sentence-encoder/2)制作了句子嵌入。之后,我想对我的向量应用聚类。

我试过图书馆sklearn

import numpy as np
from sklearn.cluster import KMeans

n_clusters = np.ceil(len(encoded)**0.5)
kmeans = KMeans(n_clusters=n_clusters)
kmeans = kmeans.fit(encoded)

但我收到一条错误消息:

'numpy.float64' object cannot be interpreted as an integer'

标签: cluster-analysissummarizationsentence-similarity

解决方案


问题是在这一行引起的:

n_clusters = np.ceil(len(encoded)**0.5)

kmeans期望收到一个integer集群的数量,所以只需添加:

n_clusters = int(np.ceil(len(encoded)**0.5))

推荐阅读