python - 如何对多个txt文件使用TfidfVectorizer在python中获取一个数据帧
问题描述
我必须使用 TfidfVectorizer 将目录中的多个文本文件 (.txt) 转换为一个数据帧。
我需要将数据框导出到目录。我必须编写python代码。
代码
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
files = [file for file in os.listdir('E:/train/r/') if file.endswith('.txt')]
tfidf_vectorizer = TfidfVectorizer(use_idf = True)
tfidf_vectorizer_vectors = tfidf_vectorizer.fit_transform(files)
df = pd.DataFrame(tfidf_vectorizer_vectors.T.todense(),
index=tfidf_vectorizer.get_feature_names(),
columns=["tfidf"]) df.sort_values(by=["tfidf"],ascending=False)
解决方案
推荐阅读
- openiddict - 除了使用 OpenIddict 的 OpenId 之外,还允许 Basic 授权
- sas - 在 SAS Enterprise Guide 8.1 上打开 SAS 表后文件树消失
- javascript - 如何在 postgresql & express 中的其他占位符变量中插入日期范围?
- ubuntu - “无法初始化 NVML:驱动程序/库版本不匹配”- Ubuntu 服务器是否自动更新?
- bootstrap-4 - 如何仅将中心导航栏与 bootstrap 4.5.3 对齐?
- python - 如何获取整个文本周围的边界框坐标?
- python - 转换 pandas 数据框:需要更有效的解决方案
- javascript - 是否可以使用 IntersectionObserver 观察许多项目?
- spring-boot - Postman Post 返回成功,但响应中的参数为空
- javascript - 如何将 setSelectionRange 与 document.getElementsByClassName 一起使用?