git - 为 git lfs 使用 azure blob 存储
问题描述
我正在使用 git-lfs 在我的工作中存储某些大型数据集。但是,git-lfs 的免费层有 1GB/月的带宽限制,超过这个限制用户会被阻止一个月。我碰巧有一些天蓝色的信用,并希望在使用 git 对项目进行版本控制时使用 blob 存储作为 git-lfs 的存储。
我使用 aws-s3 storage 进入了这个存储库:git-lfs-s3。
但是它没有足够的关于如何设置整个系统的说明,并且还被用户存档。这个问题还有其他(很好解释的)解决方案吗?
解决方案
我最终为此使用了DVC。虽然它与需要安装 DVC 并不完全相同git-lfs
,但它的工作方式与 git-lfs
. 除此之外,它还适用于 google-drive、azure blob storage 等云应用程序。
设置 DVC
安装后,在存储库中,初始化 dvc:
dvc init
dvc add path-to-large-file
DVC 将要求您运行 git 命令来添加指针文件并忽略提交中的大文件。例如
git add path-to-large-file.dvc .gitignore
git commit -m "Add data file"
发布此内容后,您需要设置一个要保存大文件的遥控器。有关使用各种远程源(google drive、blob、aws s3 等)的详细文档
dvc remote add -d myremote azure://mycontainer/path
使用以下命令将大文件保存到远程:
dvc push
使用 DVC
以后您只需.dvc
为修改过的大文件添加文件(假设您dvc add
至少为该文件做了一次)。其他一切都会像普通的 git 一样工作。
这个视频是一个很好解释的教程,介绍了如何开始使用 dvc 来绕过 git-lfs 的限制。
推荐阅读
- javascript - VIDEOJS:错误:TypeError:this.ytPlayer.getDuration 不是函数 && this.ytPlayer.getPlaybackRate
- sql - Spark SQL Group by 未按预期工作
- python - python 3.7 tkinter 的空列表框返回值
- excel - 在数组中传递工作表函数参数
- apache-spark - Spark Union 与使用 lit in spark 添加列
- ruby-on-rails - FactoryBot #build 对象与传入的关联对象未正确创建对象
- mysql - 跨多个表呈现多行的 MySQL 数据
- c++ - 在VSCode中调试时如何导致无法打开'strtol_l.c'
- javascript - 从终端运行节点 app.js 的“大多数中间件”问题
- python - 在 PySpark 中标记重复项