首页 > 解决方案 > 澄清网络的顺序和规模

问题描述

在社交图中,节点的数量是否比边的数量少得多?

在我对推特网络的分析中,我得到了这样的结果

节点 = 20,000

边 = 335,000

我该如何解释数字之间的巨大差距

标签: twitterneo4jbigdatadata-sciencegraph-data-science

解决方案


是的,这是图的一个共同属性,因为节点之间的潜在关系的数量以与节点数量的平方成正比的速率增加(下面的确切公式)。看看随着组的扩展,组之间的互连是如何工作的。

虽然我们实际上可以创建节点,但我们可以通过查看所有可能产生有效非冗余关系的可能组合的计数来模拟这一点,并在集合最大连接时显示计数。

WITH range(1,100) as id
UNWIND id as a
UNWIND id as b
WITH a, b
WHERE a < b
RETURN count(*)

如果它们都是链接的,没有多余的关系,我们最终会得到来自 100 个最大链接个体的 4950 个关系。对于最大连接的 1000 人,您将拥有 499500 个关系。对于 10000,您将有 49995000 个关系。

有一个公式可以捕捉到这一点,即完整图形可能的边数,并且应用它比我们之前的查询更简单:

WITH 100 as n
RETURN (n * (n - 1)) / 2.0

社交网络都是关于个体之间的无数连接的,正如你所看到的,随着节点数量的增加,它们之间可能的关系数量会猛增,即使它们没有接近完整的图表。

您还可以考虑,在社交图谱中,可能会有很多朋友集群,其中每个集群可能最大程度地连接,这将推高关系计数,更重要的是集群的大小。


推荐阅读