git - 下载时清除 git-lfs 缓存
问题描述
我目前正在为一个项目下载一个大型(~450GB)数据集。数据集托管在这里,并且,就本问题而言,它由大小大致相等的部分组成,例如 ~300MB。设置后,我使用以下命令下载每个文件:
git lfs pull --include "c4-ko.*.json.gz" # this is ~40GB
git lfs pull --include "c4-ja.*.json.gz" # this is 400GB
到现在我下载了245G。~40GB(文件)已被运走c4-ko
(并从c4/multilingual
.ko
ja
ja
> du -d 1 .
29360 ./en.noclean
249430140 ./.git
4196 ./en
2092 ./realnewslike
205621196 ./multilingual
4196 ./en.noblocklist
455091192 .
我需要一种方法来安全地删除其中的一些内容,./.git
因为我一个一个地下载剩余的文件。这是否可以实现,如果可以,如何实现?欢迎任何可行的解决方案。
重要信息已标记为粗体。谢谢!
编辑/附录
如果你很好奇:至少对我来说没有其他办法。其他方式要么是向 Google 付费以从他们的存储中下载,要么通过 Apache Beam 下载整个文件,c4/multilingual
总计约 20TB。curl
我也可以使用or手动下载wget
,但是我会花过去三天白费。
我不确定我是否能够从那些没有部分下载的文件中分辨出来。- 这些部分的大小大致相等(~300MB),但不完全相等。
解决方案
推荐阅读
- python - Python中的移动图像
- laravel - 这个原始 SQL 语句对 SQL 注入安全吗?
- kotlin - 我在哪里可以安装 Kotlin 的开发包?
- pandas - 合并重复索引的值,其中 NaN 然后先保留
- r - 在 R 中,将字符向量传递给 dplyr::bid_rows
- sql-server - 在 SQL Server 2014 中将(文本)行转换为列
- search - 移动设备上的 SAPUI5 搜索字段自动建议
- java - 底部元素与地图上的 Google 徽标重叠
- angular - 如何在 vscode 中为 Angular 项目设置正确的 typescript linting?
- javascript - 当单击标题时新列表向下滑动时,jQuery向上滑动显示列表?