首页 > 解决方案 > 在多个列上独立使用 TFIDF

问题描述

我想根据 2 个不同列中的信息将数据分类。我想独立地将 TFIDF 向量化应用于两列 - 即对两列中存在的信息具有单独的向量,并分别转换 2 个测试数据列。

这是我仅用于矢量化一列(VLOB_D&B)的代码-

Train_X, Test_X, Train_Y, Test_Y = 
model_selection.train_test_split(Corpus['VLOB_D&B'],Corpus['category_id'],test_size=0.3, stratify = 
Corpus['category_id'])


Tfidf_vect = TfidfVectorizer(sublinear_tf=True, min_df=2, ngram_range=(1, 2))
Tfidf_vect.fit(Train_X)
Train_X_Tfidf = Tfidf_vect.transform(Train_X)
Test_X_Tfidf = Tfidf_vect.transform(Test_X)

我不想连接信息,因为两列具有不同的意义。如何在单独的列上独立应用 TFIDF 矢量化?

标签: pythonvectorizationmultiple-columnstext-classificationtf-idf

解决方案


推荐阅读