azure - Azure Purview - 扫描文件类型
问题描述
我们正在扫描 Azure 数据湖(第 2 代)。在扫描结果中,我们得到了一些我们不希望出现在资产寄存器中的文件 - 例如,如下所示的配置文件 (.wmk)。如果有什么方法可以隐藏某种类型的所有文件?我查看了扫描规则以查看自定义规则是否有效,并且文件类型 (.wmk) 未列为扫描目标,但它确实出现在资产登记册中。
类似的情况适用于数据湖文件夹,我们只想查看资源集而不是资产中的文件夹。
有没有办法阻止它们出现在资产中?
解决方案
在扫描之前,您可以通过在列表中选择适当的项目来将扫描范围限定为特定文件夹或子文件夹。注册并扫描数据源后,数据映射将提取有关数据源结构(分层命名空间)的信息。此信息用于构建数据发现的浏览体验。
笔记:
- 如果完全或部分选中父级,则将自动选择某个父级下的所有未来资产
- 成功扫描后,新扫描的资产可能会延迟出现在浏览体验中。此延迟最多可能需要几个小时。
在目录中搜索资产时,运算符可用于组成搜索查询。
具体来说,您可以使用布尔运算符而不是全部大写来指定资产不能包含的内容作为子句右侧的关键字,或者使用“*”匹配一对多字符的通配符,这样您的查询就不会返回具有 (.wmk) 属性的资产。
Example: Expense NOT wmk NOT *.wmk
(操作符可以根据需要在单个查询中组合多次。)
资源集的概念:
- 资源集是目录中的单个对象,表示存储中的大量资产。
- 为了解决将大量数据资产映射到单个逻辑资源的挑战,Azure Purview 使用了资源集。
- Azure Purview 会在扫描时自动检测资源集。此功能查看通过扫描获取的所有数据,并将其与一组定义的模式进行比较。然后它从完整扫描切换到样本扫描。
- 在样本扫描中,它只打开它认为在资源集中的文件子集。对于它打开的每个文件,它使用它的模式并运行它的分类器。
- 然后,Azure Purview在打开的资源中查找最新资源,并在目录中的整个资源集的条目中使用该资源的架构和分类。存储有关构成资源集的分区资源的聚合信息。
若要自定义或覆盖Azure Purview 如何检测哪些资产被分组为资源集以及它们在目录中的显示方式,可以在管理中心中定义模式规则。
创建资源集模式规则:
- 去管理中心。从资源集标题下的菜单中选择模式规则。选择 + 新建以创建新规则集。
- 输入资源集模式规则的范围。(文件夹路径)
- 适当更新字段,在您的情况下,主要是限定名称和不要分组为资源集
注意:创建模式规则后,所有新扫描都将在摄取期间应用该规则。数据目录中的现有资产将通过可能需要几个小时的后台进程进行更新。
例如:不要将 .wmk 文件分组到资源集
输入文件:
https://myazureblob.blob.core.windows.net/bar/raw/Expense-7/01-01-2020/22:33:22-001.xls
https://myazureblob.blob.core.windows.net/bar/raw/Expense-8/01-01-2020/22:33:22-002.wmk
模式规则
Scope: https://myazureblob.blob.core.windows.net/bar/
Display name: Expense-{{Fileid}}
Qualified Name: raw/Filename-{{Fileid:int}}/{{:date}}/{{:time}}-{{:int}}.wmk
Resource Set: false
输出单个资产
Asset 1
Display name: Expense-7
Qualified Name: https://myazureblob.blob.core.windows.net/bar/raw/Expense-7/01-01-2020/22:33:22-001.xls
此外,如果您觉得这没有帮助,您可以分享您的反馈,以便产品团队可以研究这个想法。✌</p>
推荐阅读
- angular - 提交表单超时后如何在页面上显示错误?
- python - 如何将访问权限限制为 pyTelegramBotAPI 中的少数用户?
- swift - Prepare(for segue:) 不在 Realm 中传递数据
- python - 如何在“for循环”内将颜色随机分配给单独的顶点,而不是整个网格?
- python - 如何正确设置 MYPYPATH 以获取 mypy 的存根?
- javascript - 如何从原始 JavaScript 中的图像上传器 vgy.me 获取 JSON 响应?
- pyspark - Pyspark:我想手动映射我的数据框中的一列的值
- elasticsearch - 无法在 Mac 上启动 ElasticSearch
- python-3.x - 正则表达式中的问题元组 - 正则表达式
- google-apps-script - 如何从 Google 文档中删除定位的图像?