scikit-learn - 仅使用计数矢量化器
问题描述
使用 2 个矢量化器中的任何一个时,我得到了相同的结果:
vect=CountVectorizer(min_df=1, token_pattern=r'[a-zA-Z0-9\-\ ]+')
vX = vect.fit_transform(movies['genres'])
df3=pd.DataFrame(vX.toarray(), columns=vect.get_feature_names())
是否有任何情况下我将“不得不”使用二进制分析器而不是计数矢量化器?
mlb = MultiLabelBinarizer()
mym=mlb.fit_transform(movies['genres'].str.split('|'))
ndf2=pd.DataFrame(mym, columns=mlb.classes_)
或者我可能错过的 df3 和 ndf2 有什么区别吗?我的问题是,我可以只使用 Count Vectroizer 吗?
解决方案
推荐阅读
- firebase - 来自客户端的firebase云函数调用将我重定向到accounts.google.com/ServiceLogin
- react-native - 过滤器功能不会在本机反应中重新调整任何内容
- azure - Azure 应用程序 oauth2 在客户端凭据授予类型中生成错误的访问令牌
- javascript - 如何使用 react-hook 复制基于类的组件异步 setState 方法
- sql - 如何打印光标的值
- python - 我如何解决这个python程序中的问题
- alfresco - Alfresco 5:在特定存储库文件夹或用户上设置配额
- android - 部署到设备时出现 Android Wear 库问题(在模拟器中正常)
- ios - 在 Apple App Site Association 文件中为路径添加通配符 (*)
- java - 在获取当前纬度和经度时获取 nul 对象引用