r - 有什么方法可以将字符编码更改为等效的英文 IN R?
问题描述
在 R 中,我使用 Tabulizer 库从 Pdf 表中提取数据,名称为尼泊尔语,提取后我获取此表 [1]:https ://i.stack.imgur.com/Ltpqv.png
但现在我希望第 2 列的名称更改为英文等效项
有没有办法在 R 中做到这一点
我写的 R 代码是
library(tabulizer)
location <- "https://citizenlifenepal.com/wp-content/uploads/2019/10/2nd-AGM.pdf"
out <- extract_tables(location,pages = 113)
##write.table(out,file = "try.txt")
final <- do.call(rbind,out)
final <- as.data.frame(final) ### creating df
col_name <- c("S.No.","Types of Insurance","Inforce Policy Count", "","Sum Assured of Inforce Policies","","Sum at Risk","","Sum at Risk Transferred to Re-Insurer","","Sum At Risk Retained By Insurer","")
names(final) <- col_name
final <- final[-1,]
write.csv(final,file = "/cloud/project/Extracted_data/Citizen_life.csv",row.names = FALSE)
View(final)```
解决方案
该文档似乎使用了非 Unicode 编码。该网站https://www.ashesh.com.np/preeti-unicode/可以将一些尼泊尔语编码转换为 Unicode,假设您加载了正确的字体,它将在 R 中正确显示。当我在你的代码输出上尝试它时,它做了一些对我来说看起来不错的事情,但我不懂尼泊尔语:
> out[[1]][1,2]
[1] ";fjlws hLjg aLdf"
当我转换该字符串的内容时,我得到
सावधिक जीवन बीमा
在我看来,它类似于文档中该页面上的文本。如果它实际上写得正确,那么将其转换为英语将需要一些会说尼泊尔语的人来进行翻译:希望是你,但如果我使用谷歌翻译,它会给
Term life insurance
所以我的建议是:联系那个www.ashesh.com.np网站的所有者,看看他们是否可以给你翻译规则。如果您找不到其他人,请编写一个 R 函数来实现它们。然后手动进行英文翻译。
推荐阅读
- python - Django - 在 form.py Meta 类中添加小部件选项?
- react-native - 仅删除 js 数组中的一项
- python - 如何处理 pandas 中的插补和热门编码?
- javascript - 在每个对象内迭代对象的js数组,检查对象中的值与所有其他对象的唯一性,推送到新数组
- python - 使用递归的硬币找零算法
- jquery - 复选框通过传递不同类型的值
- android - HTTP 请求发布到 HTTP 正文是 JSON 字典的服务器
- c - 如何向 Windows KMDF 注册软件中断?
- c++ - MSVC++:模板的 static_assert 不会在 lambda 内触发
- javascript - 如何编写不会冻结网站 UI 的时间延迟?