首页 > 解决方案 > 导出表格到 Excel 在 r 中有 <U+F70A> 字符串和泰语字符串

问题描述

我已经使用 pdf_text 读取 pdf 文件并将它们拆分为表格 这是我的代码和结果(在我的语言中有许多 <U+F70A> 而不是一些字符):结果

> txt14_16 <- pdf_text(".pdf") 

> data<-(txt14_16[100]) 
> df <- data %>% 
  read_lines()%>% 
  grep('^\\s{5}\\w|^\\s{1}\\w',., value = TRUE)  
> out <- data.table(do.call( rbind, strsplit( df, '\\s{3,}' ) ))

我曾尝试使用此代码

out1<-out%>%
stri_replace_all_regex("<U\\+([[:alnum:]]+)>", "\\\\u$1") %>% 
stri_unescape_unicode() %>% 
stri_enc_toutf8()

这很好(它会在没有 < U+F70A> 的情况下在 R 结果中出现我的语言中的所有字符串)作为结果但我无法将它们导出到 Excel、文本、csv。当我导出它们时,它们将显示为 < U+F70A>

所以,我想在没有 <U+F70A> 的情况下将它们导出到 Excel。

标签: rpdfencodingutf-8thai

解决方案


推荐阅读