r - 需要使导入功能更快速
问题描述
我正在创建这个函数来将文件从 HDFS 导入到 RStudio,它工作正常。但问题是它需要重要的时间才能给出所需的结果。
library(data.table)
import_file <- function (file_Path)
{
data.fichier <- as.data.table(system(paste("hadoop fs -cat",PAPath),intern=TRUE))
return(do.call(rbind, stringr::str_split(data.fichier$V1, ',')))
}
实际上,它的输入是 HDFS 中文件的目录,由:
/hdfs/data/lll/l111/l11/l1/InterfacePublique-Controle-PUB_1EEUC-201803-PR-20181004-100228-indicateurs-PUB_1EEUC/*
这是输出的一个例子:
[,1] [,2] [,3] [,4] [,5]
[1,] "DIS_CD_SI_CD_QUL_SGN_PSE" "001_COE" "" "819832" "3.2664467021013293"
[2,] "DIS_CD_SI_CD_QUL_SGN_PSE" "001_COT" "" "937680" "3.7359870603079344"
[3,] "DIS_CD_SI_CD_QUL_SGN_PSE" "001_EMP" "" "3797954" "15.132142095005504"
[4,] "DIS_CD_SI_CD_QUL_SGN_PSE" "001_SOU" "" "1327439" "5.288899120540168"
[5,] "DIS_CD_SI_CD_QUL_SGN_PSE" "001_TIT" "" "13849361" "55.17984119265992"
[6,] "DIS_CD_SI_CD_QUL_SGN_PSE" "002_COE" "" "33716" "0.13433425019766052"
[7,] "DIS_CD_SI_CD_QUL_SGN_PSE" "002_COT" "" "31649" "0.1260987271475192"
[8,] "DIS_CD_SI_CD_QUL_SGN_PSE" "002_EMP" "" "158625" "0.632007665132397"
请问有什么优化它的代码的建议吗?
解决方案
推荐阅读
- linux - 生成信号后 mq_receive() 不返回
- inheritance - 使用 JAXB 时,如何使 XML 仅包含子类的标签?
- android - 为什么我应该在 Kotlin 中这样写?
- python - 使用 Django 设置数据库时出现问题,出现“供应引擎值”错误
- linker - 了解 STM32F103C8T6 的链接器脚本
- c++ - 将一个指针分配给另一个指针时执行的 C++ 类型检查
- google-apps-script - 有没有办法将多个范围合并到工作表 appscript 的单个范围中?
- typo3 - 如何为 TYPO3 中的表分配 css 属性?
- macos - 主机和容器之间的 OSX Docker 桌面文件共享不适用于 /etc/hosts 通过 docker-compose
- python - aws“eb create”失败-CalledProcessError:命令'/opt/python/run/venv/bin