python - 在多个列上独立使用 TFIDF
问题描述
我想根据 2 个不同列中的信息将数据分类。我想独立地将 TFIDF 向量化应用于两列 - 即对两列中存在的信息具有单独的向量,并分别转换 2 个测试数据列。
这是我仅用于矢量化一列(VLOB_D&B)的代码-
Train_X, Test_X, Train_Y, Test_Y =
model_selection.train_test_split(Corpus['VLOB_D&B'],Corpus['category_id'],test_size=0.3, stratify =
Corpus['category_id'])
Tfidf_vect = TfidfVectorizer(sublinear_tf=True, min_df=2, ngram_range=(1, 2))
Tfidf_vect.fit(Train_X)
Train_X_Tfidf = Tfidf_vect.transform(Train_X)
Test_X_Tfidf = Tfidf_vect.transform(Test_X)
我不想连接信息,因为两列具有不同的意义。如何在单独的列上独立应用 TFIDF 矢量化?
解决方案
推荐阅读
- docker - 为什么 docker 在守护进程模式 (-d) 下运行获得权限被拒绝 (selinux) 而不是在交互模式下 (-ti)
- javascript - 如何在 Javascript 中为浏览器设计“终端”或 CLI 应用程序?(模拟阻塞 I/O)
- html - 视频文件在 Internet Explorer11 中 3 秒后停止播放
- selenium - Appium-inspector[android] 无法加载应用内的某些页面
- url-routing - 无法切换路径 404,无法捕获通配符路由
- json - 如何从 JSON 文件中获取价值并在网站上显示
- matlab - 部分更改文本框中文本的颜色
- karate - 组件测试的简单流程
- ios - 如何将 FCM 推送通知消息从应用服务器发送到移动客户端?
- java - 不兼容的类型:int 不能转换为 Drawable