python - Sagemaker 中 XGBoost 的矢量化分类数据集
问题描述
当我们使用 AWS 内置模型训练 XGB 模型时,例如(container = sagemaker.image_uris.retrieve("xgboost", region, "1.2-1"))
,
根据我的理解,训练工作需要用于训练和验证的数字向量。这意味着如果您有一个包含分类值和字符串的数据集,则需要将它们转换为向量。该模型仅处理浮点数,(在 Sagemaker 之外,我可以使用 TFIDF 对我的特征进行矢量化并构造一个 DMatrix),但 Sagemaker 似乎不支持这种方法。
- 有谁知道在 Sagemaker 中如何进行这种数据转换?
- 使用 BlazyngText 无监督学习来生成向量是不是一个坏主意?
- 我们是否应该有一个预处理步骤并在该步骤中使用 TFIDF?
解决方案
好的,在扯了一段时间之后,我们构建了一个解决方案如下:在预处理步骤中,我们使用 TFIDF 对分类值进行矢量化,然后将数据存储到 S3 中。在训练步骤中,我们读取该训练输入并将其输入 XGB 估计器。
推荐阅读
- kubernetes - 从 Kubernetes 与外部 FTP 通信
- r - 无法分配向量 - R 中的静默内存使用情况
- git - 在 bitbucket 中使用 vs 代码创建存储库
- javascript - 是否可以在单选按钮悬停时调用函数并使用 jQuery 显示在工具提示中返回的信息
- django - Django 登录表单显示不正确
- c# - 创建声音管理器阵列以供多次使用
- git - Github CLI:gh repo 创建缺失标志
- python - opencv 轮廓仅获取黑暗区域
- c# - 关闭 Blender 时保存文件
- shell - Shell 脚本从项目的根目录中查找项目中的 .java 或 .scala 文件,该脚本遍历所有目录和子目录以查找文件