python - 如何在两列上使用 sklearn TfidfVectorizer fit_transform
问题描述
不确定这是否是在这两列上应用 fit_transform 的正确方法。目前正在编写一个分类器来预测欺诈性职位发布。我对“描述”和“要求”列感兴趣。我不知道是否有办法在同一行中进行两种转换。
preprocessor = TfidfVectorizer(stop_words='english', strip_accents='unicode', norm='l2', use_idf=False,smooth_idf=False)
XX = preprocessor.fit_transform(X["description"])
XX = preprocessor.fit_transform(X["requirements"])
解决方案
我认为您误解了文档。如果你想在两列上做 tfidf,那么你需要通过两个转换器。像这样的东西:
tfidf_1 = TfidfVectorizer(min_df=0)
tfidf_2 = TfidfVectorizer(min_df=0)
clmn = ColumnTransformer([("tfidf_1", tfidf_1, "a"),
("tfidf_2", tfidf_2, "b")
],
remainder="passthrough")
推荐阅读
- hyperledger-fabric - 对等管理卡不存在错误,JSON 输入意外结束
- python - 跨平台 Pipenv.lock
- python - 我正在尝试在谷歌地图上绘制带有悬停文本的多边形
- javascript - React axios 不工作它说编译失败
- perl - 如何在被调用函数之间正确传递变量?
- jenkins - Sonar Scanner 选项可将项目属性值包含在脚本化管道本身中
- java - Ant get 任务无法从 https 端点下载
- c++builder - 如何使用 Windows 鼠标挂钩 API 函数在 C++ Builder 应用程序中挂钩鼠标事件?
- ios - 如何在目标c中记录电话
- java - 如何使用 JInternalFrame 标题栏更改颜色?