r - 将类别列添加到数据集
问题描述
我有这样的数据表
+------------+-------+
| Model | Price |
+------------+-------+
| Apple-1 | 10 |
+------------+-------+
| New Apple | 11 |
+------------+-------+
| Orange | 13 |
+------------+-------+
| Orange2019| 15 |
+------------+-------+
| Cat | 19 |
+------------+-------+
我想定义一个基本模型标签列表,我想将这些标签添加到与特定条件/值匹配的任何单行中。因此,例如为这样的标记定义了一个数据框
+------------+--------+
| Model | Tag |
+------------+------ -+
| Apple-1 | A |
+------------+------ -+
| New Apple | A |
+------------+------ -+
| Orange | B |
+------------+------ -+
| Cat | B |
+------------+--------+
我想找到一些方法来获得这个结果:
+------------+-------+--------+
| Model | Price | Tag |
+------------+-------+--------+
| Apple-1 | 10 | A |
+------------+-------+--------|
| New Apple | 11 | A |
+------------+-------+--------|
| Orange | 13 | B |
+------------+-------+--------|
| Orange2019| 15 | B |
+------------+-------+--------|
| Cat | 19 | B |
+------------+-------+--------|
我不介意使用表格来管理标记数据,而且我知道我可以编写非常“临时”的 mutate 语句来实现我想要的结果,只是想知道是否有更优雅的方法来标记基于模式匹配的字符串。
解决方案
一种想法是使用 Levenshtein 距离来聚类您拥有的单词。您需要提供许多集群。一旦你有了这个集群,只需将每个集群的数量作为类别标签添加到你的表中。查看此答案,该答案详细介绍了 Levenshtein 距离聚类。具有 Levenshtein 距离的文本聚类
编辑
我想我完全误解了你的问题......试试这个
df=data.frame("Model"=c("Apple-1","New Apple","Organe","Orange2019","Cat"),
"Price"=c(10,11,13,15,19),stringsAsFactors = FALSE)
tags=data.frame("Model"=c("Apple-1","New Apple","Orange","Cat"),
"Tag"=c("A","A","B","B"),stringsAsFactors = FALSE)
df%>%rowwise()%>%mutate(Tag=if_else(!is.na(tags$Tag[which(!is.na(str_extract(Model,tags$Model)))[1]]),
tags$Tag[which(!is.na(str_extract(Model,tags$Model)))[1]],false="None"))
Model Price Tag
<chr> <dbl> <chr>
1 Apple-1 10 A
2 New Apple 11 A
3 Organe 13 None
4 Orange2019 15 B
5 Cat 19 B
我实际上改变Orange
了,Organe
以便你看到如果不匹配会发生什么(none
返回)
推荐阅读
- mysql - 将销售分组到非日历月
- python - 在 python 中过滤关于特定国家的推文
- pytorch - 在 TorchScript 中跟踪张量大小
- java - 在java中使用正则表达式从基于下划线的字符串中获取子字符串
- node.js - 管理nodejs多个超时会话
- django - 从另一个数据库获取数据并在 Django 中每隔几秒刷新一次的最佳方法
- mqtt - 如何将“共享属性”从 Thingsboard 发送到设备(RPC)?
- git - git merge-file dry-run / 检测是否可以通过自动冲突解决来合并具有共同祖先文件的 2 个文件
- r - Cross tabulation plot with numbers in R
- c++ - 从 std::vector 转换
到 std::vector 不犯重罪