首页 > 解决方案 > 下载时清除 git-lfs 缓存

问题描述

我目前正在为一个项目下载一个大型(~450GB)数据集。数据集托管在这里并且,就本问题而言,它由大小大致相等的部分组成,例如 ~300MB。设置后,我使用以下命令下载每个文件:

git lfs pull --include "c4-ko.*.json.gz" # this is ~40GB
git lfs pull --include "c4-ja.*.json.gz" # this is 400GB

到现在我下载了245G。~40GB(文件)已被运走c4-ko(并从c4/multilingual.kojaja

> du -d 1 .
29360   ./en.noclean
249430140       ./.git
4196    ./en
2092    ./realnewslike
205621196       ./multilingual
4196    ./en.noblocklist
455091192       .

我需要一种方法来安全地删除其中的一些内容,./.git因为我一个一个地下载剩余的文件。这是否可以实现,如果可以,如何实现?欢迎任何可行的解决方案。

重要信息已标记为粗体。谢谢!


编辑/附录

如果你很好奇:至少对我来说没有其他办法。其他方式要么是向 Google 付费以从他们的存储中下载,要么通过 Apache Beam 下载整个文件,c4/multilingual总计约 20TB。curl我也可以使用or手动下载wget,但是我会花过去三天白费。

我不确定我是否能够从那些没有部分下载的文件中分辨出来。- 这些部分的大小大致相等(~300MB),但不完全相等。

标签: gitgit-lfs

解决方案


推荐阅读