首页 > 解决方案 > Great_Expectations Apache Spark 上的数据分析未生成预期的套件

问题描述

我一直在填写使用 Great_Expectations 'BasicSuiteBuilderProfiler' 创建轻量级数据配置文件的指南 以下段落描述了如何使用 Great_Expectations 数据分析器

分析与远大期望有何关系?

您可能已经或可能尚未使用 Great Expectations 附带的内置分析功能,特别是在运行套件脚手架命令时。这会使用我们的 BasicSuiteBuilderProfiler 加载一个样板笔记本,它会根据一些轻量级分析自动生成一个 Expectation Suite。例如,如果我们的分析器发现一个列没有 NULL 值,它将创建一个 expect_column_values_to_not_be_null 期望。或者,如果它确定一列只包含来自特定值集的字符串,比如“apple”、“pear”、“orange”,它将创建一个相应的值集期望: expect_column_values_to_be_in_set(column=”fruit”, values=( “苹果”、“梨”、“橙”))。知道了?

但是,当我在我的 Apache Spark 平台上使用探查器时,如下所示:

expectation_suite, validation_result2 = BasicDatasetProfiler.profile(ge_df)

当我运行代码时,validation_result2我得到以下输出格式:

"result": {
        "element_count": 5,
        "missing_count": 0,
        "missing_percent": 0.0,
        "unexpected_count": 5,
        "unexpected_percent": 100.0,
        "unexpected_percent_total": 100.0,
        "unexpected_percent_nonmissing": 100.0,
        "partial_unexpected_list": [
          101,
          104,
          107,
          103,
          101
        ],
        "partial_unexpected_index_list": null,
        "partial_unexpected_counts": [
          {
            "value": 101,
            "count": 2
          },
          {
            "value": 103,
            "count": 1
          },
          {
            "value": 104,
            "count": 1
          },
          {
            "value": 107,
            "count": 1
          }
        ]
      },
      "exception_info": {
        "raised_exception": false,
        "exception_message": null,
        "exception_traceback": null
      },
      "meta": {},
      "success": false,
      "expectation_config": {
        "kwargs": {
          "column": "Feed_id",
          "value_set": [],
          "result_format": "SUMMARY"
        },
        "expectation_type": "expect_column_values_to_be_in_set",
        "meta": {
          "BasicDatasetProfiler": {
            "confidence": "very low"
          }
        }
      }
    },

我希望探查器生成

expect_column_values_to_be_in_set(column=”Feed_id”, values=(“101”,
“103”, “104”,“104”,“107”))

有人可以让我知道我错在哪里吗?

标签: pythonapache-sparkgreat-expectations

解决方案


推荐阅读