python - 从 Coursera 下载所有 jupyter 笔记本 [tar 大小超过 100MB]
问题描述
正如coursera 帮助文章中提到的,为了从课堂上下载笔记本,我们需要将根文件夹的所有内容压缩到单个文件中,并使用以下步骤下载最终的 workspace.tar.gz:但它不适用于所有课程。
任何人都知道正确的方法来做到这一点!
解决方案
- 打开 coursera jupyter 笔记本的主文件夹:
您可以通过打开任何课程笔记本并选择file> open
或单击Jupyter icon
笔记本左上角的 来完成此操作。
- 打开笔记本内的终端:
在笔记本的主页上,在左上角选择new> terminal
- 检查您所在的目录:
这很重要,因为不同的课程在不同的目录中有他们的材料!
有些课程有一个目录名称jovyan
,里面通常有两个文件夹work
和work-ro
.
在工作中,您可以在笔记本主页上看到您的实际内容。
在work-ro中,您只有read_only
文件夹。您在work
目录中拥有相同的文件夹,但下载后无法打开该文件夹的内容!(我不知道为什么我不能打开它)
我发现这个文件夹包含你笔记本中的图像。这就是您必须压缩这两个文件夹的原因。
没有必要所有课程都有这个文件夹命名work
!
在某些课程中,材料直接在root
目录中。在这种情况下,您可以通过在我的一门课程中查找以-ro
Ex结尾的文件夹名称来找到包含您的材料的目录。我找到了一个名为的文件夹TF-ro
,并且还有另一个名为TF
包含所有课程材料的文件夹!根据上述模式TF-ro
包含read_only文件夹。
以防万一您想知道如何在终端内导航:[使用这些命令]
ls:列出文件夹中的所有内容
cd:更改您当前所在的文件夹
Ex:cd .. #go to previous folder
cd <dirname> #go to that specified folder
- 使用 tar 压缩这两个文件夹:
导航到包含这两个文件夹的文件夹,即work
,work-ro
如果您阅读我的第二个案例而不是您的案例中的Tf
和TF-ro
或文件夹。
使用它来制作 tar 文件:
当您的文件夹仅包含您想要的两个目录时使用它
tar -czvf <choose a name>.tar.gz <address of dir to compress>
Ex:tar -czvf data.tar.gz ./
当您在根文件夹中并且您有多个目录以及您想要的文件夹时使用它
tar -czvf <choose a name>.tar.gz <dir1 addres> <dir2 addres>
Ex:tar -czvf data.tar.gz ./work ./work-ro
以防万一您想知道!
./表示当前文件夹。
- 检查 tar 文件的大小:
这也很重要!!
如果您制作 tar 文件的过程耗时过长,或者您的终端似乎被冻结了!比您的主文件夹中有一些大文件。
您可以使用以下命令检查 tar 文件的大小:ls -lh data.tar.gz
. 通常大小不应超过 10 - 15 Mbs。
如果您的大小以 GB 为单位,那么您主要是在下载大量数据集和 csv 文件!
你不能下载这样的大文件! [此问题的解决方法如下所述]
运行此命令:du
这将列出当前文件夹中的所有目录和目录的大小。
找出哪个文件夹更大。
笔记:此命令中显示的大小在占用的部分数中1 section = 1024 bytes
排除这些文件夹以制作 tar...
为了删除以前rm data.tar.gz
的 tar 文件,请运行 tar,如下所示:
tar -czvf <yourName>.tar.gz --exclude=<address to exclude> <dir/dirs to zip>
例如:tar -czvf data.tar.gz --exclude=./work/data --exclude=./work/- ./work ./work-ro
- 移动文件:
您只能在班级的笔记本主文件夹中查看工作文件夹(或您的内容所在的任何其他文件夹)中的内容。
这就是我们将 tar 文件移至该文件夹的原因。使用此命令移动mv <file name> <location>
Ex :mv data.tar.gz ./work
- 下载您的文件:
现在您可以在浏览器的主文件夹中看到您的文件。只需选择您将在顶部看到下载选项的文件!
有时您在顶部看不到下载按钮,在这种情况下......
right click your file> save link As> then save it with .tar.gz extension
只是为了确认检查您下载的文件的大小以及您教室中的一个!
下载大数据集的解决方法:
您的课程通常不会使用它存储在数据文件夹中的所有 csv 或数据集。当您进行分配时,请查看使用了哪些文件/数据集并仅手动下载这些文件。i.e opening that file on your classroom and downloading it using using file> download
如果您仍然想要整个东西而不是仅制作该文件夹的单独 tar 文件。比分割 tar 文件(你会很容易地在网上找到它),而不是像我之前提到的那样下载!下载后需要连接文件:
cat allfiles.tar.gz.part.* > allfiles.tar.gz
我建议不要浪费时间这样做!只需下载所需的内容即可!
我希望这可以帮到你 !!因为我花了 5 小时弄清楚如何去做!请享用 !!
推荐阅读
- excel - VBA 对这些公式被设置为值大喊大叫
- python - Pydantic 在模型验证后向模型添加字段(向传入模型添加字段)
- google-sheets - ImportXML to Google Sheets from Live site values. Error
- android - 如何将 React js Web 应用程序转换为 android/ios 应用程序
- python - Subplot2grid 删除图形标题和标签
- python - psycopg2 - UndefinedColumn:关系的列“日期时间”“
“ 不存在 - algorithm - 在不接触阴影正方形的情况下通过网格
- python - 如何从serializer.data Django Rest Framework返回空查询集
- python-3.x - 在嵌套字典中循环
- html - WooCommerce 热收据打印显示 HTML 标签