r - 使用 quantedas tokens_compound 在 tokens 对象中通过下划线连接多词表达式
问题描述
我有一个tokens
词的对象,没有标点符号:
文档 | 文本 |
---|---|
文档1 | '穆罕默德''费舍尔''是''一个''伟大的''家伙''他''喜欢''钓鱼' |
文档2 | 'M''Fisher''喜欢''钓鱼''钓鱼''耶' |
我想用这个来通过下划线tokens_compound
加入某些多词表达式:
文档 | 文本 |
---|---|
文档1 | 'Mohammed_Fisher''是''一个''伟大的''家伙''他''喜欢''钓鱼' |
文档2 | 'M_Fisher' '喜欢' '钓鱼' '钓鱼' '耶' |
因此,我定义了一个我想加入和使用的多词表达式列表tokens_compound
:
multiword <- c('Mohammed Fisher', 'M Fisher')
comp_toks <- tokens_compound(tokens, pattern = phrase(multiword))
这不起作用,也不起作用
comp_toks <- tokens_compound(tokens, pattern = as.phrase(multiword))
也不
comp_toks <- tokens_compound(tokens, multiword)
我在这里想念什么?
解决方案
使用phrase()
而不是as.phrase()
.
> quanteda::phrase(c('Mohammed Fisher', 'M Fisher'))
[[1]]
[1] "Mohammed" "Fisher"
[[2]]
[1] "M" "Fisher"
推荐阅读
- node.js - Type-graphql with lerna --- 错误:无法确定 id 的 GraphQL 输出类型
- html - 尝试使用 R 中的函数将新行附加到正在进行的电子表格中
- python - 无法导入 Matplotlib 和 Pandas
- python - 计算列表中元素之间成对交互的更快方法?
- unity3d - 使用 Google Drive API 获取文件列表
- html - 每当我从导航菜单移动到下拉菜单时,悬停后下拉菜单就会消失
- docker - 当我运行“iotedge check”时,它会产生一个 docker 错误
- delphi - 如何处理 TIdTCPServer 中的超时——IOHandler.ReadTimeout 属性?
- arrays - 解析 JSON 来做数学?
- vbscript - 从图片中获取 TAG 元数据 - 文件夹和子文件夹 - Vbscript