首页 > 解决方案 > 使用 aws S3 存储桶进行流式传输的 Databricks

问题描述

以下是与使用 aws S3 存储桶的 Databricks 流式传输相关的一些查询。

  1. 从 S3 存储桶流式读取和写入文件(.csv)时是否可以获得往返执行时间?如果可能的话,请详细解释。

  2. 如何通过传递参数调用函数在流中使用现有的python笔记本?

  3. 使用readStream流式读取文件(.csv)时如何获取文件(.csv)路径?

标签: pythonamazon-s3databricks

解决方案


  1. 查看流指标中的批处理持续时间。
  2. 将函数放在单独的笔记本中并在流开始之前在该笔记本上调用 %run ,然后您就可以使用它们了。
  3. 使用函数 input_file_name 检索文件名。

推荐阅读