python - 在python中读取多个文件夹类别中的多个.txt文件的方法
问题描述
我是 Python 新手,正在尝试读取存储在多个文件夹层次结构中的 .txt 文件数据集。文件夹的结构是
-Folder1
-Category1_Folder
-file1.txt
-Category2_Folder
-file1.txt
-file2.txt and so on...
这些类别具有重要意义。我需要能够识别哪个文件属于哪个类别。然后我需要删除停用词并使用 TfIDf 执行特征提取。做这样的事情最简单的方法是什么?
解决方案
我推荐os.walk
。
如果你有这样的目录:
project/
- folder1/
- file1.png
- file2.jpg
- folder2/
- file3.zip
然后,示例代码是:
import os
for dirpath, dirnames, filenames in os.walk(os.getcwd()): # getcwd() for current work dir
print(dirpath, dirnames, filenames)
输出来:
/project ['folder1', 'folder2'] []
/project/folder1 [] ['file1.png', 'file2.jpg']
/project/folder2 [] ['file3.zip']
如果您需要文件夹、文件名,请使用 for 循环:
for dirname in dirnames:
for filename in filenames:
# split dirname for categories
# and so on..
推荐阅读
- c# - 用 Show() 替换 ShowDialog()
- php - PHP将多个数组值转换为时间格式
- c - 指针出于某种原因显示垃圾
- php - 每天通过 php 和 Javascript 创建一个日志文件
- python - 使用 .apply(pd.Timestamp) 时如何指定日期标准。Python 在 2018 年 11 月 12 日混淆日期和月份
- indexing - sqlite3 DB 不使用索引,除非被清理
- scala - 在构建时从 scala 案例类生成 avsc avro 模式
- acumatica - Acumatica GI 看到软删除的数据
- batch-file - Saxon:result-document() 函数失败且没有错误消息
- google-cloud-firestore - Google Cloud Firestore/Datastore 中的不同阶段(例如开发、生产)