首页 > 解决方案 > 验证摄取数据的最佳方法

问题描述

我每天从各种外部来源(如 GA、scrapers、Google BQ 等)摄取数据。我将创建的 CSV 文件存储到 HDFS 中,从中创建阶段表,然后将其附加到 Hadoop 中的历史表中。您能否分享一些如何使用历史数据验证新数据的最佳实践?例如,将实际数据的行数与过去 10 天的平均值或类似的数据进行比较。火花或其他东西有什么准备好的解决方案吗?

感谢您的建议。

标签: validationapache-sparkhadoopdata-manipulationdata-ingestion

解决方案


推荐阅读