首页 > 解决方案 > 仅使用计数矢量化器

问题描述

使用 2 个矢量化器中的任何一个时,我得到了相同的结果:

vect=CountVectorizer(min_df=1,  token_pattern=r'[a-zA-Z0-9\-\ ]+')
vX = vect.fit_transform(movies['genres'])
df3=pd.DataFrame(vX.toarray(), columns=vect.get_feature_names())

是否有任何情况下我将“不得不”使用二进制分析器而不是计数矢量化器?

mlb = MultiLabelBinarizer()
mym=mlb.fit_transform(movies['genres'].str.split('|'))
ndf2=pd.DataFrame(mym, columns=mlb.classes_)

或者我可能错过的 df3 和 ndf2 有什么区别吗?我的问题是,我可以只使用 Count Vectroizer 吗?

标签: scikit-learncountvectorizer

解决方案


推荐阅读