首页 > 解决方案 > Universal Sentence Encoder,降低向量维数

问题描述

我正在使用TensorFlow hub 上提供的此模块成功转换文档。

每个文档的输出是一个 512 维向量,但是这对于我的应用程序来说太大了,我想减少模块本身不提供的维度。

我可以看到几个选项:

使用 PCA 或 tSNE 的问题在于,这需要适合许多示例向量的数据——这意味着当新文档到达并已转换为 512 维向量时,我需要继续拟合另一个模型,并且然后更新旧的文档向量——这在我的应用程序中将是一个大问题。

是否有任何其他可以对单个数据点进行操作的降维技术?

标签: pythontensorflowmachine-learningvectornlp

解决方案


“UMAP 支持通过标准 sklearn 变换方法向现有嵌入添加新点。” UMAP在各个方面、速度、准确性和理论基础上都是降维的赢家。


推荐阅读