首页 > 解决方案 > 在Java中计算两个单词的概念和关系相似度

问题描述

我正在根据这篇论文在 Java 中实现一个可读性公式。

我已经到了必须计算两个或多个单词的概念和关系相似性的地步。

他们说:

我们使用潜在语义分析 (LSA) 工具来计算单词相似度。LSA 可以从单词文档共现矩阵中获取语义信息,包括相似性。在扫描整个语料库的固定大小的移动窗口中计算单词/术语共现。使用 +-1 和 +-4 窗口大小的共现模型分别被认为是关系相似性和概念语义模型。

我试图查看 LSA 的一些实现,比如这个,但是找不到一种直接的方法来获得我想要的东西。

我应该有一个基于单词的矩阵,所以我尝试使用 WS4J 库来计算基于两个字符串数组的矩阵。

WS4J 也有一个方法calcRelatednessOfWords(),但它得到的结果与论文中显示的不匹配。

有没有提供我想要的图书馆?或者谁能​​指出我正确的方向?

标签: javasimilaritylsalatent-semantic-indexing

解决方案


推荐阅读