首页 > 解决方案 > 如何从 Internet 档案中批量下载文件 [评论]

问题描述

在我最近在 Stack Overflow 上发布的上一个问题中,如何从 Internet 存档中批量下载文件,我想我想出了一种方法来解决我的问题,方法是使用Internet 存档帮助博客上发布的最少数量的命令,作为提醒,这是他们在博客上发布的命令版本:

wget -r -H -nc -np -nH --cut-dirs=1 -A .pdf,.epub -e robots=off -l1 -i ./itemlist.txt -B 'http://archive.org/download/'

针对我自己的命令版本:

wget --cut-dirs=1 -A .pdf,.epub -e robots=off -i ./itemlist.txt -B 'http://archive.org/download/'

命令运行得很好,但我有我想要的 pdf 和 epub 文件随机数字文件扩展名,例如:

arxiv-1411.7162
arxiv-1412.0666
arxiv-1410.8703

等等...用文本编辑器打开这些文件后,我发现它们是html文件。我使用本地浏览器运行了其中一些文件,并在这些页面的底部显示了我想要的 PDF 下载链接的网页。我想知道如何在没有人工干预的情况下自动提取这些文件,并提及是否应该更改之前的步骤。

标签: cygwinemulationwgetbulkloader

解决方案


推荐阅读