首页 > 解决方案 > 如何对多个txt文件使用TfidfVectorizer在python中获取一个数据帧

问题描述

我必须使用 TfidfVectorizer 将目录中的多个文本文件 (.txt) 转换为一个数据帧。

我需要将数据框导出到目录。我必须编写python代码。

代码

import numpy as np 
import pandas as pd 
from sklearn.feature_extraction.text import TfidfVectorizer

files = [file for file in os.listdir('E:/train/r/') if file.endswith('.txt')] 
tfidf_vectorizer = TfidfVectorizer(use_idf = True) 
tfidf_vectorizer_vectors = tfidf_vectorizer.fit_transform(files) 
df = pd.DataFrame(tfidf_vectorizer_vectors.T.todense(),
                  index=tfidf_vectorizer.get_feature_names(), 
                  columns=["tfidf"]) df.sort_values(by=["tfidf"],ascending=False)

标签: pythontfidfvectorizer

解决方案


推荐阅读