首页 > 解决方案 > 将 warc.gz 转换为 .warc

问题描述

我尝试使用 gzip 提取 warc.gz 文件导致了 WARC,但它不会加载到http://replayweb.page中。

使用 Unarchiver 提取它给了我所有扩展的 html 和其他文件。

将warc.gz 转换为warc 的最新推荐方法是什么?出于某种原因,我在为这个简单的任务寻找建议的尝试中失败了。

谢谢!

标签: webarchivewarc

解决方案


编程方式是使用“ warcio ”python 库,命令行方式是使用来自warctools的“warc2warc”实用程序。


推荐阅读