r - 使用逗号分隔的字符串查找数据集变量中的所有项目
问题描述
我正在尝试使用逗号分隔的字符串获取数据框变量中的所有唯一项:
我有这个数据框
df = data.frame(v1 = c("A,S", "A,B,F", "A,B,C,D"))
我希望结果是这样的:
A,B,C,D,F,S
循环会起作用,但我知道有一种更简单的方法。
解决方案
我们可以通过 拆分列,从ing 中,
获取sort
edunique
元素unlist
list
sort(unique(unlist(strsplit(df$v1, ","))))
[1] "A" "B" "C" "D" "F" "S"
或使用tidyverse
- 在分隔符处拆分列“v1”,返回distinct
行和arrange
行
library(dplyr)
library(tidyr)
df %>%
separate_rows(v1) %>%
distinct(v1) %>%
arrange(v1)
-输出
# A tibble: 6 x 1
v1
<chr>
1 A
2 B
3 C
4 D
5 F
6 S
推荐阅读
- python - 使用 Apache Beam 处理非结构化数据的最佳实践
- java - 如何找到未命名的 JSON 对象的值?(org.json) (java)
- vb.net - VB.Net 用 CefSharp 设置文本框文本
- vb.net - 多个搜索词
- sql - 根据第一条路径聚合 URL
- uiimage - 那是不可能将 UIImage 添加到 UIAlertController 的 UIAlertAction 中的吗?
- swiftui - 如何在 swift UI 中围绕图像绘制文本
- android - 如何在提示时激活 FragmentContainerView
- python - 我正在尝试编写一个代码,其中字符“|” 在每个字母之间,但它不适用于某些字符
- r - 如何在 R 中读取 .data 格式?