python-3.x - 如何通过 Databricks 在 Data Lake 中以更少的时间将大文件从一个目录复制到另一个目录?
问题描述
我正在尝试将20GB文件从一个文件夹复制到Azure Data Lake中的另一个文件夹,并希望通过 Data Bricks 来实现。我已经尝试了下面的代码,但它需要一个多小时。谁能建议我如何在不到20 分钟的时间内实现这一目标?
import shutil, os
shutil.copytree("/dbfs/mnt/storage1/ABC/", "/dbfs/mnt/storage1/copied/")
解决方案
最好的选择是使用 dbutils.fs。
这将为您做到:
dbutils.fs.cp ("/mnt/storage1/ABC/", "/mnt/storage1/copied/", recurse=True)
推荐阅读
- python - 如何从浮点数转换为整数到字符串?以 10 为底的 int() 的无效文字:'x'
- telephony - 在 BRI ISDN 连接中使用 2 个 B 通道
- python - 如何使用正则表达式正确解析复杂字符串中的元素
- javascript - Can you set seperate colors for different axes in Chart.js?
- prolog - 如何使用算术运算符在数据库中查找特定值
- javascript - 如何在 n:m 关联中进行单向限制?
- matlab - 如何使用批处理文件打开已打开的 MATLAB 文件?
- ubuntu - 在 Ubuntu 上,如何将 ~/.dotnet/tools 添加到 PATH 变量中?它不在 /etc/environment 或 ~/.bashrc 中,但它仍然在我的 PATH 中
- raku - 哈希中的接受与智能匹配:有什么区别?
- r - knitr opts_knit$set(root.dir = "../") 当 chunk_output_type: 控制台被忽略