首页 > 解决方案 > DataLake Power BI 设计模式

问题描述

我们的客户有一个共同的问题,即许多分布式数据存储具有不同的技术堆栈。最后的游戏是将某些部分数据整合在一起,通过 Microsoft Power BI 生成详细的报告。

这种方法有标准模式吗?我最初的想法是

  1. 在可能的情况下,Azure 数据工厂将数据迁移到 Azure Data Lake。
  2. 如果无法做到这一点,请自动将数据提取和转储到 Azure Data Lake。
  3. 用户 Power BI Desktop 连接到 csv 数据集以生成模型和报告(同时执行相当大的转换)
  4. 发布到 PowerBI 服务以在用户之间共享

担心...

  1. 我们应该在数据工厂(或其他一些 ETL)中使用 DataFlows 进行转换还是继续使用 PowerBI 中的查询编辑器
  2. 在 PowerBI Desktop 中连接多个数据集并执行大量转换活动是否存在性能问题?
  3. 为了用新数据更新报告,是否只是覆盖数据湖中以前的 CSV 文件并刷新报告的情况?

标签: azurepowerbiazure-data-factory-2azure-data-lake-gen2

解决方案


在我的经验中:

  1. 使用查询编辑器。那是流行的工具。无处不在的大量示例和视频。
  2. 不确定“许多”是什么,但您可以加载最大 1GB 的电子表格文件。单个工作表最大可达 30MB。单击此处了解有关限制的更多信息
  3. 是的。而且您还可以设置自动刷新,因此您无需单击任何内容。

推荐阅读