r - 使用 stringi 在 R 中生成一个唯一的随机字符串
问题描述
我有每行都是一个人的数据。我想制作一个随机生成的唯一 ID,以便在分析中识别它们。
这是一个示例数据框
df <- data.frame(
gender = rep(c("M", "F", "M", "M", "F"), 1000),
qtr = sample(c(1:99), 50000, replace = T),
result = sample(c(100:1000), 50000, replace = T)
)
要生成唯一 ID,我使用的是 stringi
library(stringi)
library(magrittr)
library(tidyr)
df <- df %>%
mutate(UniqueID = do.call(paste0, Map(stri_rand_strings, n=50000, length=c(2, 6),
pattern = c('[A-Z]', '[0-9]'))))
但是,当我通过运行此代码测试新变量 UniqueID 是否唯一时,我发现有一些重复项。
length(unique(unlist(df[c("UniqueID")])))
有没有办法生成一个真正唯一且没有重复的唯一 ID?
我见过这些问题,但它没有回答如何使生成的随机数唯一。 在R中的数据框列中生成唯一的随机数 在每列中创建一个带有随机数的数据框
谢谢
解决方案
您可以使用该ids
包自动创建唯一 ID。例如,要创建 1000 万个用户 ID,您可以使用:
randos <- ids::random_id(1E6, 4)
# The 2nd term here controls how many bytes are assigned to each ID.
# The default, 16 bytes, makes much longer IDs and crashes my computer
head(randos)
#[1] "31ca372d" "d462e55f" "2374cc78" "15511574" "ecbf2d65" "236cb2d3"
它还有其他不错的功能,例如adjective_animal
创建更易于人类区分和记忆的 ID 的功能。
creatures <- ids::adjective_animal(1E6, n_adjectives = 1)
head(creatures)
#[1] "yestern_lizard" "insensible_purplemarten"
#[3] "cubical_anhinga" "theophilic_beaver"
#[5] "subzero_greyhounddog" "hurt_weasel"