r - 无法删除外语 unicode 代码
问题描述
我有一个包含多种外语(俄语、日语、阿拉伯语等)信息的 .csv 文件。例如,列条目如下所示:<U+03BA><U+03BF><U+03C5>。我想删除具有此类信息的行。我尝试了各种解决方案,但都没有结果:
test_fb5 <- read_csv('test_fb_data.csv', encoding = 'UTF-8')
或申请专栏:
gsub("[<].*[>]", "")` or `sub("^\\s*<U\\+\\w+>\\s*", "")
或者
gsub("\\s*<U\\+\\w+>$", "")
似乎 R 4.1.0 没有找到相应的字符。我找不到在此处附加一小块文件的方法。这是文件的捕获:
address
33085 9848a 33 avenue nw t6n 1c6 edmonton ab canada alberta
33086 1075 avenue laframboise j2s 4w7 sainthyacinthe qc canada quebec
33087 <U+03BA><U+03BF><U+03C5><U+03BD><U+03BF><U+03C5>p<U+03B9>tsa 18050 spétses greece attica region
33088 390 progress ave unit 2 m1p 2z6 toronto on canada ontario
name
33085 md legals canada inc
33086 les aspirateurs jpg inc
33087 p<U+03AC>t<U+03C1>a<U+03BB><U+03B7><U+03C2>patralis
33088 wrench it up plumbing mechanical
category
33085 general practice attorneys divorce family law attorneys notaries
33086 <NA>
33087 mediterranean restaurants fish seafood restaurants
33088 plumbing services damage restoration mold remediation
phone
33085 17808512828
33086 14507781003
33087 302298072134
33088 14168005050
3308 是数据集的行谢谢您的时间!
解决方案
您可以使用否定字符类来删除<U...>
代码:
gsub("<[^>]+>", "", x)
这匹配任何子字符串:
- 开头
<
, - 后面跟着一个或多个字符,除了该
>
字符,并且 - 结束于
>
如果您在<
and之间有其他>
不想删除的子字符串,只需添加U
到更具体的目标 unicode 代码,因此:<U[^>]+>
数据:
x <- "address 33085 9848a 33 avenue nw t6n 1c6 edmonton ab canada alberta 33086 1075 avenue laframboise j2s 4w7 sainthyacinthe qc canada quebec 33087 <U+03BA><U+03BF><U+03C5><U+03BD><U+03BF><U+03C5>p<U+03B9>tsa 18050 spétses greece attica region 33088 390 progress ave unit 2 m1p 2z6 toronto on canada ontario name 33085 md legals canada inc 33086 les aspirateurs jpg inc 33087 p<U+03AC>t<U+03C1>a<U+03BB><U+03B7><U+03C2>patralis 33088 wrench it up plumbing mechanical category 33085 general practice attorneys divorce family law attorneys notaries 33086 <NA> 33087 mediterranean restaurants fish seafood restaurants 33088 plumbing services damage restoration mold remediation phone 33085 17808512828 33086 14507781003 33087 302298072134 33088 14168005050"
推荐阅读
- flutter - 无法使用 GetX 显示下拉菜单按钮值
- azure - Quarkus:MDC 未在 Azure Application Insights 中公开
- python - 在 Python 中生成密码的安全问题?
- .net - “IConfigurationSection”不包含“Get”的定义,也没有可访问的扩展
- notifications - 在 Microsoft Teams 聊天中添加自定义通知或消息
- python - pandas:如何将列表存储在 excel 的 sqlite 数据库中
- django - 如何在 Django 中接受和拒绝订单
- sql - 如何同时使用内连接和左外连接?
- angular - 私有标识符仅在面向 ECMAScript 2015 及更高版本(Angular 9)时可用
- kotlin - 为什么我会收到 TornadoFX DataGrid 类型错误?