r - 计算数据框每一列中的问号
问题描述
我的数据框中有问号作为缺失值,用“?”表示。我想写一个类似的代码:
sapply(X = df, FUN = function(x) sum(is.na(x)))
这给了我数据框每一列中问号的数量。
解决方案
我们可以colSums
在逻辑矩阵上使用
colSums(df == "?", na.rm = TRUE)
或与sapply
sapply(df, function(x) sum(x == "?", na.rm = TRUE))
或与dplyr
library(dplyr)
df %>%
summarise(across(everything(), ~ sum(. == "?", na.rm = TRUE)))
在读取数据集时,最好使用 NA 替换na.strings
df <- read.csv('file.csv', na.strings = c("?", "NA", "N/A"))
推荐阅读
- intellij-idea - pycharm 2019:如何在项目视图中更改文件字体的大小?
- python - 如果特定模式匹配,则正则表达式检索一行中的所有文本
- xpath - 在 tokenize() 的输出中查找位置
- angular - html文件角度中某些属性未定义的错误
- pyspark - Pyspark multiple when 条件和多次操作
- c# - 使用 EPPlus 查找冻结窗格
- php - Laravel 'auth' 中间件在反向代理后面运行时设置了错误的 'url.intended' 会话数据
- git - 滥用 Git 来实现 Event Store 架构?
- ansible - Ansible:在 postgres 中将角色附加到用户
- java - 我的 jScrollPane 在我的 AbstractTableModel 上不起作用