python - Great_Expectations Apache Spark 上的数据分析未生成预期的套件
问题描述
我一直在填写使用 Great_Expectations 'BasicSuiteBuilderProfiler' 创建轻量级数据配置文件的指南 以下段落描述了如何使用 Great_Expectations 数据分析器
分析与远大期望有何关系?
您可能已经或可能尚未使用 Great Expectations 附带的内置分析功能,特别是在运行套件脚手架命令时。这会使用我们的 BasicSuiteBuilderProfiler 加载一个样板笔记本,它会根据一些轻量级分析自动生成一个 Expectation Suite。例如,如果我们的分析器发现一个列没有 NULL 值,它将创建一个 expect_column_values_to_not_be_null 期望。或者,如果它确定一列只包含来自特定值集的字符串,比如“apple”、“pear”、“orange”,它将创建一个相应的值集期望: expect_column_values_to_be_in_set(column=”fruit”, values=( “苹果”、“梨”、“橙”))。知道了?
但是,当我在我的 Apache Spark 平台上使用探查器时,如下所示:
expectation_suite, validation_result2 = BasicDatasetProfiler.profile(ge_df)
当我运行代码时,validation_result2
我得到以下输出格式:
"result": {
"element_count": 5,
"missing_count": 0,
"missing_percent": 0.0,
"unexpected_count": 5,
"unexpected_percent": 100.0,
"unexpected_percent_total": 100.0,
"unexpected_percent_nonmissing": 100.0,
"partial_unexpected_list": [
101,
104,
107,
103,
101
],
"partial_unexpected_index_list": null,
"partial_unexpected_counts": [
{
"value": 101,
"count": 2
},
{
"value": 103,
"count": 1
},
{
"value": 104,
"count": 1
},
{
"value": 107,
"count": 1
}
]
},
"exception_info": {
"raised_exception": false,
"exception_message": null,
"exception_traceback": null
},
"meta": {},
"success": false,
"expectation_config": {
"kwargs": {
"column": "Feed_id",
"value_set": [],
"result_format": "SUMMARY"
},
"expectation_type": "expect_column_values_to_be_in_set",
"meta": {
"BasicDatasetProfiler": {
"confidence": "very low"
}
}
}
},
我希望探查器生成
expect_column_values_to_be_in_set(column=”Feed_id”, values=(“101”,
“103”, “104”,“104”,“107”))
有人可以让我知道我错在哪里吗?
解决方案
推荐阅读
- git - Git日志(--follow)无法显示重命名之外的历史
- html - CSS中视频右下角的覆盖div
- c# - Telerik RadGrid 修复了导出到 Word 时的字体大小
- reactjs - 从 React 表中的函数获取列值
- microsoft-graph-api - 使用安全警报 (Microsoft Graph API) 中的 Delta 查询跟踪事件更改
- angular - 如何在 Angular 中使用订阅对嵌套服务方法进行单元测试
- node.js - 将文件对象保存到本地文件系统:NodeJS EJS
- php - 如何使显示板上的sql图像可点击
- python - Discord.py 音乐机器人无法正常工作并产生错误
- windows - 在 Windows 10 上重新排序日期和批量重命名文件