首页 > 解决方案 > 读取 Azure Data Lake Store 中文件的元数据

问题描述

需要读取存储在 Azure Data Lake Store 中的文件的元数据。

文件可以是 JPEG、EXCEL 或 TIFF 格式

请指教,真的在寻找建议。我正在使用 Microsoft Azure Data Lake Store 并使用 USQL。

标签: c#azureazure-data-lakeu-sql

解决方案


目前不支持。根据反馈站点,它似乎在积压中

您也许可以按照链接中的建议编写自定义提取器:

如果它可用,例如 JPEG 中的 EXIF - 使用自定义提取器从内容中提取一些属性。

根据这篇博文,他们已经完成了图像属性提取,请参阅repo。它可以作为如何为您的场景实现此功能的指南。这是一个示例查询

@image_features =
    EXTRACT copyright string, 
            equipment_make string,
            equipment_model string,
            description string,
            thumbnail byte[], 
            name string, format string
    FROM @"/Samples/Data/Images/{name}.{format}"

    USING new Images.ImageFeatureExtractor(scaleWidth: 500, scaleHeight: 300);

@image_features = SELECT * FROM @image_features
                  WHERE format IN("JPEG", "jpeg", "jpg", "JPG");

OUTPUT @image_features
TO @"/output/images/image_features.csv"
USING Outputters.Csv();

或者让另一个进程提取这些属性并将它们放入 Azure Data Lake 中的某个元数据文件中,以便您可以加入该文件。


推荐阅读