r - 基于 r 中的两列的 delim 分隔行
问题描述
我有以下df:
df_1=data.frame(col_1=c("a;b;c","c;d","e","f","g","h;j"),col_2=c("1;2;3","4","5;6","7","8;9","10;11;12"))
所以我想将 col_1 分成单独的行,如果存在 col_2 的相应值。
例如,如果 col_1 中的元素数 = col_2 中的元素数,那么它们应该与 col_1 和 col_2 中的相应值分开(第 1 行)
如果它们具有不同数量的元素,如果一列只有一个元素,那么也可以将其分隔到不同的行(第 2 行)
如果它们的元素数量不成比例(每个超过 1 且不相等),则应保持原样
这是final_dataset:
df_2=data.frame(col_1=c("a","b","c","c","d","e","e","f","g","g","h;j"),col_2=c("1","2","3","4","4","5","6","7","8","9","10;11;12"))
解决方案
我们可以用cSplit
library(splitstackshape)
library(zoo)
cnt1 <- nchar(gsub(";", "", df_1$col_1))
cnt2 <- nchar(gsub(";", "", df_1$col_2))
i1 <- cnt1 != cnt2 & cnt1 > 1 & cnt2 > 1
rbind(cSplit(df_1[!i1,], c('col_1', 'col_2'), sep=";", "long")[
!is.na(col_1)|!is.na(col_2), lapply(.SD, na.locf0)], df_1[i1,])
# col_1 col_2
# 1: a 1
# 2: b 2
# 3: c 3
# 4: c 4
# 5: d 4
# 6: e 5
# 7: e 6
# 8: f 7
# 9: g 8
#10: g 9
#11: h;j 10;11;12
或base R
与所有约束一起使用
cnt1 <- nchar(gsub(";", "", df_1$col_1))
cnt2 <- nchar(gsub(";", "", df_1$col_2))
i1 <- cnt1 != cnt2 & cnt1 > 1 & cnt2 > 1
lst1 <- lapply(df_1[!i1, ], function(x) strsplit(x, ";"))
out <- rbind(do.call(rbind, Map(function(x, y) {
l1 <- length(x)
l2 <- length(y)
mx <- max(l1, l2)
x <- if(l1 != l2 & l1 == 1) rep(x, mx) else x
y <- if(l1 != l2 & l2 == 1) rep(y, mx) else y
data.frame(col_1 = x, col_2 = y) } ,
lst1[[1]], lst1[[2]])), df_1[i1,])
row.names(out) <- NULL
out
# col_1 col_2
#1 a 1
#2 b 2
#3 c 3
#4 c 4
#5 d 4
#6 e 5
#7 e 6
#8 f 7
#9 g 8
#10 g 9
#11 h;j 10;11;12
推荐阅读
- javascript - 如何阻止用户访问给定的 url?
- sql - Biq 查询:查询执行期间超出资源
- aws-amplify - 放大自定义身份验证身份声明上的数据存储“未经授权”错误
- python - 如何在 Python 中的每个 awk 命令之后创建一个新行?
- r - R [DescTools?] 中两个范围的重叠量
- python - 如果满足某些条件,如何从关系数据库返回值;姜戈
- sql - 创建外键时出错(检查数据类型)
在 local_fees 上创建外键时出错(检查数据类型)
I already check my datatypes in both table manage_fees and fees table
已经设置
fees pk
为 unsgined 与manage_fee
我仍然收到有关- r - 创建函数以返回具有最大观察数的变量
- python - 在集合字典中对具有相同值的所有键进行分组
- swift - 从共享 Userdefaults 获取值时崩溃