首页 > 解决方案 > 如何对包含几个单词的字符串的分类列进行一次性编码?

问题描述

我正在使用 Python 来解决分类问题。我想对当前结果为字符串的列进行一次热编码。下面是我正在寻找的一个例子。如果该列中的一行有一个包含“bleu cheese”的字符串,我想将其编码为 0。对于所有其他结果,我想将其编码为 1。我不想要多个列。我只想保留一列。

  Dressing             Salad
0  Bleu Cheese        Spinach
1  Thick Bleu Cheese  Chicken
2  Ranch              Chicken
3  Italian            Taco

我希望它看起来像这样

   Dressing          Salad
0  0                 Spinach
1  0                 Chicken
2  1                 Chicken
3  1                 Taco

任何想法将不胜感激。

标签: pythonclassificationone-hot-encoding

解决方案


您可以使用这样的Pandas库来执行此操作:

data_dressing = pd.get_dummies(data['dressing'])

或者使用Series这样的东西:

data['dressing'] = pd.Series([1 if 'bleu cheese' in i else 0
                            for i in data['dressing']], index=data.index)

推荐阅读