首页 > 解决方案 > Sagemaker 中 XGBoost 的矢量化分类数据集

问题描述

当我们使用 AWS 内置模型训练 XGB 模型时,例如(container = sagemaker.image_uris.retrieve("xgboost", region, "1.2-1"))

根据我的理解,训练工作需要用于训练和验证的数字向量。这意味着如果您有一个包含分类值和字符串的数据集,则需要将它们转换为向量。该模型仅处理浮点数,(在 Sagemaker 之外,我可以使用 TFIDF 对我的特征进行矢量化并构造一个 DMatrix),但 Sagemaker 似乎不支持这种方法。

  1. 有谁知道在 Sagemaker 中如何进行这种数据转换?
  2. 使用 BlazyngText 无监督学习来生成向量是不是一个坏主意?
  3. 我们是否应该有一个预处理步骤并在该步骤中使用 TFIDF?

标签: pythonvectorizationxgboostamazon-sagemaker

解决方案


好的,在扯了一段时间之后,我们构建了一个解决方案如下:在预处理步骤中,我们使用 TFIDF 对分类值进行矢量化,然后将数据存储到 S3 中。在训练步骤中,我们读取该训练输入并将其输入 XGB 估计器。


推荐阅读