首页 > 解决方案 > 如何通过 Databricks 在 Data Lake 中以更少的时间将大文件从一个目录复制到另一个目录?

问题描述

我正在尝试将20GB文件从一个文件夹复制到Azure Data Lake中的另一个文件夹,并希望通过 Data Bricks 来实现。我已经尝试了下面的代码,但它需要一个多小时。谁能建议我如何在不到20 分钟的时间内实现这一目标?

import shutil, os
shutil.copytree("/dbfs/mnt/storage1/ABC/", "/dbfs/mnt/storage1/copied/")

标签: python-3.xazure-data-lakedatabricks

解决方案


最好的选择是使用 dbutils.fs。

这将为您做到:

 dbutils.fs.cp ("/mnt/storage1/ABC/", "/mnt/storage1/copied/", recurse=True)

推荐阅读