首页 > 解决方案 > 将类别列添加到数据集

问题描述

我有这样的数据表

+------------+-------+
|  Model     | Price | 
+------------+-------+
|  Apple-1   |   10  |
+------------+-------+
|  New Apple |   11  |
+------------+-------+
|  Orange    |   13  |
+------------+-------+
|  Orange2019|   15  |
+------------+-------+
|  Cat       |   19  |
+------------+-------+

我想定义一个基本模型标签列表,我想将这些标签添加到与特定条件/值匹配的任何单行中。因此,例如为这样的标记定义了一个数据框

+------------+--------+
|  Model     |   Tag  | 
+------------+------ -+
|  Apple-1   |   A    |
+------------+------ -+
|  New Apple |   A    |
+------------+------ -+
|  Orange    |   B    |
+------------+------ -+
|  Cat       |   B    |
+------------+--------+

我想找到一些方法来获得这个结果:

+------------+-------+--------+
|  Model     | Price |  Tag   |
+------------+-------+--------+
|  Apple-1   |   10  |   A    |
+------------+-------+--------|
|  New Apple |   11  |   A    |
+------------+-------+--------|
|  Orange    |   13  |   B    |
+------------+-------+--------|
|  Orange2019|   15  |   B    |
+------------+-------+--------|
|  Cat       |   19  |   B    |
+------------+-------+--------|

我不介意使用表格来管理标记数据,而且我知道我可以编写非常“临时”的 mutate 语句来实现我想要的结果,只是想知道是否有更优雅的方法来标记基于模式匹配的字符串。

标签: rtagging

解决方案


一种想法是使用 Levenshtein 距离来聚类您拥有的单词。您需要提供许多集群。一旦你有了这个集群,只需将每个集群的数量作为类别标签添加到你的表中。查看此答案,该答案详细介绍了 Levenshtein 距离聚类。具有 Levenshtein 距离的文本聚类

编辑

我想我完全误解了你的问题......试试这个

df=data.frame("Model"=c("Apple-1","New Apple","Organe","Orange2019","Cat"),
              "Price"=c(10,11,13,15,19),stringsAsFactors = FALSE)
tags=data.frame("Model"=c("Apple-1","New Apple","Orange","Cat"),
                "Tag"=c("A","A","B","B"),stringsAsFactors = FALSE)


df%>%rowwise()%>%mutate(Tag=if_else(!is.na(tags$Tag[which(!is.na(str_extract(Model,tags$Model)))[1]]),
                                    tags$Tag[which(!is.na(str_extract(Model,tags$Model)))[1]],false="None"))

  Model      Price Tag  
  <chr>      <dbl> <chr>
1 Apple-1       10 A    
2 New Apple     11 A    
3 Organe        13 None 
4 Orange2019    15 B    
5 Cat           19 B 

我实际上改变Orange了,Organe以便你看到如果不匹配会发生什么(none返回)


推荐阅读