首页 > 解决方案 > 我们是否可以仅通过查看 512 维 Universal Sentence Encoder Vector 的特征来将乱码与有意义的句子分开?

问题描述

Universal Sentence Encoder 将句子编码为包含 512 个特征的向量。我的主张是,如果一个句子是胡言乱语,那么大多数特征将非常接近于零。但是,如果一个句子有意义,那么 512 个特征中的一些特征将远大于或远小于零。那么,我们能否仅通过查看向量特征的权重分布来决定哪个向量编码含义,哪个向量编码胡言乱语?

标签: nlpword2vec

解决方案


似乎 USE 以一种非常随意的方式对特征进行编码。我进行了很多实验,发现这些特征以任意方式放大和缩小,而不管句子是乱码还是有意义。实验包括计算一个有意义的乱码向量中的正负特征的数量,找出特征的均值和标准分布。但是没有任何图案可以描绘出两者。附件是屏幕截图。

下面是乱码句子向量和有意义句子向量的特征分布

下面是样本 2。采集了更多样本(大约 30 个),并且没有观察到正负特征计数、标准偏差和平均值的模式,这可以将乱码 USE 向量与有意义的向量分开。 样本


推荐阅读