r - quanteda:计算网络图中每个节点的边数
问题描述
我有一个通过包的textplot_network()
功能计算的网络图quanteda
。有关最低限度,请参阅此处quanteda
的官方网站。我在下面报告的只是您在链接中可以找到的内容的复制粘贴。
library(quanteda)
load("data/data_corpus_tweets.rda")
tweet_dfm <- dfm(data_corpus_tweets, remove_punct = TRUE)
tag_dfm <- dfm_select(tweet_dfm, pattern = ("#*"))
toptag <- names(topfeatures(tag_dfm, 50))
topgat_fcm <- fcm_select(tag_fcm, pattern = toptag)
textplot_network(topgat_fcm, min_freq = 0.1, edge_alpha = 0.8, edge_size = 5)
生成的网络图如下:
如何计算图中呈现的每个节点的边数?如果我使用topfeatures()
应用于fcm
对象的函数,topgat_fcm
我将获得网络的顶级集线器,它们是检测到的同时出现的计数。
有任何想法吗?
谢谢
解决方案
任何节点的边数将是上三角形中的单元数,不包括对角线(因为文档中特征与自身的另一个实例同时出现不会在图中产生“边”)。
让我们从一个更简单的例子来解决这个问题。我将定义一个非常简单的包含六个单词类型的三文档结构。
library("quanteda", warn.conflicts = FALSE)
## Package version: 1.4.0
## Parallel computing: 2 of 12 threads used.
## See https://quanteda.io for tutorials and examples.
txt <- c("a b b c", "b d d e", "a e f f")
fcmat <- fcm(txt)
fcmat
## Feature co-occurrence matrix of: 6 by 6 features.
## 6 x 6 sparse Matrix of class "fcm"
## features
## features a b c d e f
## a 0 2 1 0 1 2
## b 0 1 2 2 1 0
## c 0 0 0 0 0 0
## d 0 0 0 1 2 0
## e 0 0 0 0 0 2
## f 0 0 0 0 0 1
这里,“a”有四个边,分别是“b”、“c”、“e”和“f”。“b”具有三个边,分别是“c”、“d”和“e”(在第一个文档中不包括“b”与自身的共现)。
为了得到计数,我们可以将非零的单元格相加,这可以使用rowSums()
或者如果你转置矩阵,计算“文档”频率的等效函数(尽管这里的特征是“文档”)。
排除自边缘,我们可以通过查看这个 fcm 的网络图来验证这些边缘。
rowSums(fcmat > 0)
## a b c d e f
## 4 4 0 2 1 1
docfreq(t(fcmat))
## a b c d e f
## 4 4 0 2 1 1
textplot_network(fcmat)
为了排除自边缘计数,我们需要将对角线归零。目前,这将删除 fcm 上的类定义,这意味着我们将无法在 中使用它textplot_network()
,但我们仍然可以使用我们的rowSums()
方法按节点获取边数,从而为您的问题提供答案。
diag(fcmat) <- 0
rowSums(fcmat > 0)
## a b c d e f
## 4 3 0 1 1 0
推荐阅读
- kubernetes - 如何使用只运行一次的 init 容器复制 pod?
- c++ - 未绘制三角形。C++/GLEW/SDL
- javascript - 如何在点击时复制包含许多脚本的 div
- bash - 将 HEX 转换为 IEEE 754 浮点数
- flutter - 使用 flutter_blue 确定您的手机是否已与设备配对
- google-analytics - 跨域跟踪适用于会话但不适用于事件
- pytest - 是否可以在 pytest 中只收集 N 个测试?
- javascript - 我无法从流媒体服务器下载 M3U8 HLS 播放列表而不会遇到 CORS 错误?
- git - 带回我在 git 本地删除的文件
- java - 仅在临界区中断另一个线程