r - 使用 tidyverse/dplyr 从其他列子字符串创建列
问题描述
假设我们在 R 中有这个数据框:
start = data.frame(
Title = c("name_year0","name_year1","name_year2"),
value = c(4,5,6)
)
我想对其进行变异,以使年份信息Title
出现在年份列中:
Title value year
name 4 0
name 5 1
name 6 2
这段代码几乎可以工作:
result1 = test %>%
mutate(year = str_match(Title, "year[0-9]+"))
但结果是这样,它将字符串名称保留在年份列中:
Title value year
name_year0 4 year0
name_year1 5 year1
name_year2 6 year2
看来我应该能够在正则表达式匹配中使用组来仅从 中提取数字部分year
,如下所示:
result2 = test %>%
mutate(year = str_match(Title, "year([0-9]+)")[1,2])
但由于某种原因,这似乎总是返回相同的年份值:
Title value year
name_year0 4 0
name_year1 5 0
name_year2 6 0
我错过了什么(可能很简单)?为什么str_match("name_year0","year([0-9]+)")[2]
对单个字符串有效,但当我将它放入时却不起作用mutate
?
谢谢
解决方案
我猜你有一个错字。在str_match(Title, "year([0-9]+)")[1,2]
中,[1,2]
返回 row=1,column=2 的值。要获取第 2 列,请[ , 2]
改用,或仅[2]
指示第 2 列,就像您在评论回复中提到的那样。
start = data.frame(
Title = c("name_year0","name_year1","name_year2"),
value = c(4,5,6)
)
start %>%
mutate(year = str_match(Title, "year([0-9]+)")[,2])
编辑:
对不起,我犯了一个错误。Str_match 在这里返回一个矩阵。矩阵就像一个向量(按列)。[2]
是矩阵中的第二个值,[20]
是从左上角算起的第 20 个值,列在前,如本例所示。
> a=matrix(1:100, ncol=10)
> a
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,] 1 11 21 31 41 51 61 71 81 91
[2,] 2 12 22 32 42 52 62 72 82 92
[3,] 3 13 23 33 43 53 63 73 83 93
[4,] 4 14 24 34 44 54 64 74 84 94
[5,] 5 15 25 35 45 55 65 75 85 95
[6,] 6 16 26 36 46 56 66 76 86 96
[7,] 7 17 27 37 47 57 67 77 87 97
[8,] 8 18 28 38 48 58 68 78 88 98
[9,] 9 19 29 39 49 59 69 79 89 99
[10,] 10 20 30 40 50 60 70 80 90 100
> a[2]
[1] 2
> a[20]
[1] 20
推荐阅读
- python - 我如何对列进行分组并获取最新时间?
- c# - 转换为 Hex 2s 补码
- loops - 在 ST monad 内循环
- javascript - 在哪个浏览器中,我可以在后台选项卡中使用“dispatchevent”?
- java - How to Allow Webview Accessing Online Video Using Android Video Player Application?
- javascript - 使用正则表达式在数字字段中排除 0 和范围
- excel - How to dynamically lock and unlock a cell in Excel?
- python - 深度优先搜索python
- video-streaming - VLC displaying only a small portion of the output then crashes when reading SDP file
- c# - How to fix " The property is set more than once"?