首页 > 解决方案 > 当我使用 Selenium Python 进行 Web 自动化时,有没有办法确定文件在 Azure Databricks 中的下载位置?

问题描述

我使用 Selenium 进行网络自动化和 Python 作为一种语言,我在 Chrome 浏览器上执行此操作。

我在 Azure Databricks 中有此设置。我想从网站下载一个 excel,我通过单击“导出到 Excel”按钮来做到这一点。现在,如果我在本地系统中执行相同操作,它将被下载到本地计算机的下载文件夹中,但任何人都可以帮助我找到现在将下载它的位置,因为它正在通过 Azure Databricks 笔记本运行。

有没有办法可以直接将该文件下载到 blob 存储或任何其他特定存储?提前致谢。

导出到 Excel 按钮 导出到 Excel 按钮

exportToExcel = driver.find_element_by_xpath('//*[@id="excelReport"]')
exportToExcel.click()
time.sleep(10)

标签: seleniumselenium-chromedriverdatabricksazure-blob-storageazure-databricks

解决方案


这些是可用于将文件上传到 Azure Databricks 文件系统 DBFS 的选项。

选项 1: 使用Databricks CLI将文件从本地机器上传到 DBFS。

安装和配置 Databricks CLI 的步骤

安装 databricks cli 后,您可以使用以下命令将文件复制到 DBFS

dbfs cp test.txt dbfs:/test.txt
# Or recursively
dbfs cp -r test-dir dbfs:/test-dir

选项 2: Databricks 的 DBFS Explorer

DBFS Explorer 是作为一种将文件上传和下载到 Databricks 文件系统 (DBFS) 的快速方法而创建的。这将适用于 Databricks 的 AWS 和 Azure 实例。您需要在 Web 界面中创建不记名令牌才能连接。

该工具非常基础,今天您可以:[上传、下载、创建文件夹、删除文件]

从 Windows 资源管理器/Finder 拖放文件

选项 3:您可以将数据上传到任何 Azure 存储帐户,例如 [Azure Blob Storage, ADLS Gen1/Gen2 ],并且可以将 Blob 存储容器或容器内的文件夹装载到 Databricks 文件系统 (DBFS)。挂载是指向 Blob 存储容器的指针,因此数据永远不会在本地同步。

参考: Databricks - Azure Blob 存储


推荐阅读