h2o - DAI 是否在训练期间进行标准化/规范化,它尝试了哪些方法,以及遗传算法是否都尝试了它们?
问题描述
通常我不确定在使用 DAI 时对数据进行何种程度的预处理。通常,您希望为生产级模型降低维度、消除重复特征、标准化/规范化等。是否有一条规则,我应该停止个人预处理以支持 DAI(IE 只去除 Nan 的二进制分类算法,其余的由 DAI 完成)。它会明确解释它使用了哪种标准化技术,例如来自 Sklearn 的 MinMaxScaler() 吗?
解决方案
通常,不需要预处理,DAI 用于内部预处理的方法取决于模型背后的算法。
但是,有些特定的用例可能需要预处理,如果您联系他们,h2o 可以帮助您。例如,如果您想在客户级别预测某事,但您的数据是交易,那么您需要进行预处理 - 假设您有杂货店交易,并且您想预测商店明天会赚多少钱。然后您需要汇总到日间商店级别,因为这是您想要预测的级别。基本上任何情况下,数据比您希望在需要预处理时预测的级别更精细。
对于缺失值,最好让 Driverless AI 处理它们,除非您知道缺失值的原因,因此可以使用域规则来填充它们。例如,如果您有 transaction = NA 但您知道这意味着没有花钱,您d 想将 NA 更改为 0。
我认为以下文档可能会有所帮助:http: //docs.h2o.ai/driverless-ai/latest-stable/docs/userguide/faq.html#data-experiments-predictions。特别是“无人驾驶 AI 可以处理缺失值/空值的数据吗?”部分 和“无人驾驶人工智能是否标准化数据?”。
您还可以在实验报告中找到很多关于您的实验正在做什么的信息:http: //docs.h2o.ai/driverless-ai/latest-stable/docs/userguide/experiment-summary.html。我们目前不报告标准化方法,因为对于可能非常复杂的集成中的每个模型,它的发生方式不同。
推荐阅读
- java - 我正在尝试从 Jenkins Pipeline 生成 Allure 报告,但遇到错误
- php - 如何使用php创建换行符
- php - 在 Laravel 中提交表单后如何重定向到主页
- reactjs - 如何使用 Formik 和 Material-UI 获得价值可重用的自动完成组件
- postgresql - Postgresl:循环值列表以使用多个 WHERE 子句创建 SELECT
- amazon-web-services - 从 S3 加载时,Redshift 使用了错误的时区
- c# - ServiceStack 5.13.0 元数据和 swagger-ui 页面在 .NET 6 迁移后返回 500 错误
- javascript - [Vue 警告]:属性或方法“最大值”未在实例上定义,但在渲染期间引用
- pandas - 获取半年度和财政年度末的最后价值
- chatbot - 如何使用 rasa CollectionDispather 发送视频作为响应?