r - R从句子列表中提取职位
问题描述
我目前正在编写一个脚本(在 R 中),以从来自各种公司高管传记的句子中提取职称。我有一个职位列表和传记中的句子列表,我想知道如何提取每个句子中的职位列表。我已经尝试将句子分解成单词(与职位名称相同)并使用 %in% 匹配它们,它可以工作,但它不会提取整个短语(董事会只是“董事会”和“董事”我不能包含“of”,因为一堆不需要的 of 将被拉出”
job_title <- list("board of directors", "VP of sales")
sentences <- list("He was a member of the board of directors", "He joined as
VP of sales", "He was born in 1968")
所以基本上我想要一些代码来查看每个句子,将其与 job_title 匹配并提取职位名称,以便结果是:“董事会”和“销售副总裁”列表。非常感谢!
解决方案
也许你可以做这样的事情:
for (i in 1:2) {
if(i == 1) {
# check for board of directors
dir_list <- as.integer(grepl(job_title[1], sentences, fixed=TRUE))
} else {
# check for vp sales
cp_list <- as.integer(grepl(job_title[2], sentences, fixed=TRUE))
}
}
这给出了:
dir_list as 1, 0, 0 and cp_list as 0, 1, 0
其中 1 表示在相关句子中找到了您要查找的字符串。例如,在第 1 句中找到了 board of board,在第 2 句中找到了 vp sales。因此,如果您在一个句子中同时拥有这两个列表,则两个列表都为 1,如果没有找到,则为 0。您现在可以根据自己的要求选择要对这些值执行的操作。
推荐阅读
- php - 有没有办法将 UMA 头像配方**包括其转义字符**保存到我的数据库中?
- swift - 无法重新授权用户更改电子邮件或重置密码(Firebase .. Swift)
- javascript - 当我的路线是 /task/updateStatus/{id} 时,如何在 fetch 中将 id 连接到我的 url?
- spacy - 有什么方法可以减少内存消耗以避免在 spacy 训练中程序崩溃?
- javascript - 通过方法引用在类上调用方法
- amazon-s3 - 如何在 S3 和 CloudFront 中托管网站?
- python - 如何使用 PYTHON 的 mysql-connector 将 MySQL 数据库导出到 json?
- r - 我怎么知道目标体重是否与有数据的周匹配?
- php - PHPmailer 不在服务器上工作,但在 localhost 中运行
- uml - 我的用例图正确吗?关于用例概括