r - R中的部分字符串匹配将文本统一为一个类别
问题描述
我有如下数据集
EstablishmentName Freq
bahria university 20
bahria university islamabad 12
arid agriculture 3
arid agriculture university 15
arid rawalpindi 9
college of e&me, nust 20
college of e & me (nust) 15
college of eme 30
正如您在上面看到的那样,Bahria University 和 Bahria University Islamabad 几乎相同,其他字符串也是如此。我想把它们统一成一个这样
预期产出
EstablishmentName Freq
Bahria University 32
Arid Agriculture 27
College of EME 30
我尝试了以下解决方案,但似乎不起作用。
library(SnowballC)
library(dplyr)
mutate(df, word = wordStem(EstablishmentName)) %>%
group_by(EstablishmentName) %>%
summarise(total = sum(Freq))
解决方案
推荐阅读
- python - 如何加快对数百万条记录的 Spotipy API 调用?
- nativescript - ios 的 Nativescript 构建成功但收到错误消息
- php - 无法在第 9 行的 Colorido.class.php 中重新声明之前在 Colorido.class.php:9 中声明的 wfColoridoRender
- node.js - 将数据从反应应用程序移动到节点服务器
- entity-framework-core - 实体框架核心:无效的列名“UserId1”
- questdb - QuestDB 元数据版本无效
- certificate - 您将如何实施 CRL 和证书吊销检查?
- discord.py - 为什么用户输入没有放在列表中?
- python - 是否可以根据激活的 LayerControl 绘制标记?
- matplotlib - Seaborn jointplot 将 x 轴链接到 Matplotlib 子图