bigdata - 我们可以将 .txt 文件加载到 vaex 吗?
问题描述
我有 .txt 文件的文件夹,大小为 52.6 GB。.txt 文件位于不同的子文件夹中。每个子文件夹都有唯一的标签“F”、“G”等。每个子文件夹都有许多 .txt 文件。我需要将每个唯一标签(“F”,“G”)的所有 .txt 文件合并到一个文件中。我尝试使用vaex。但我找不到为 .txt 文件执行此操作的方法。有人可以帮我吗?
解决方案
如果文本文件具有 csv 格式的数据,并且文件之间的结构相同,您可以使用:
df = vaex.open_many([fpath1, fpath2, ..., fpathX])
要获取所有文件名及其路径,您可以方便地使用pathlib
递归地 glob 文件路径
from pathlib import Path
txt_files = Path('your_label_folder_path').rglob('*.txt')
# since this returns a generator and vaex.open_many expects a list
# and while we're here, resolve the absolute path as well
txt_files = [txt.absolute() for txt in txt_files]
df = vaex.open_many(txt_files)
推荐阅读
- angular - docker中的角度与lerna没有建立
- reactjs - 侧边栏切换 URL 的反应路由但不改变实际视图
- c# - 源自“System.Transactions.JitSafeGetContextTransaction”的“无法转换”异常?
- javascript - 工作日日历 - 通过 JS 动态地将 3 个 DIV 附加在一起 - 尝试将最终 DIV 刷新到右侧
- python - 如何从具有特定条件的DataFrame中的列中选择一组数据?
- c# - 为什么我的抽签动画没有在 Xamarin Forms 中显示?
- javascript - 为什么在对元素应用不透明度时我的文本不可见?
- python - 为什么我可以使用 bot.get_user 函数获得一些用户,而其他用户却不能?[不和谐.py]
- python - Python selenium 问题,等待元素可点击,点击链接与 javascript href
- fetch - Wix fetch 函数使用 HTTPS 从谷歌分析服务中获取资源