首页 > 解决方案 > 如何使用 pandoc 将特定网页转换为 markdown 或 asciidoc?

问题描述

我想将java 规范文档转换为易于编辑的格式(markdown 或 asciidoc)并上传 GitHub Gist 和自定义(添加我的代码经验和注释。)我想转换成这样的东西

我使用了一个名为 pandoc 的工具,它允许我们从 HTML 转换为 markdown。

我尝试了以下操作:

技术 1 我试图在 index.html 上转换 java 规范的所有组件表

pandoc -f html -t markdown -o test2.md  
https://docs.orac le.com/javase/specs/jls/se10/html/index.html`

我得到了这个:tes2.md (我没有在这里上传,因为内容文件太长了)

问题1:这个markdown文件没有java规范文档的内容。我希望我在 markdown 文件中获得 markdown toc(组件表)和 java 规范文档内容,如下所示`

问题 2:当单击此降价文件上的链接时,我得到 404 错误页面。

技术2(优于技术1) 我用HTTrack下载了TOC的所有HTML文件,并尝试分别转换所有文件。

pandoc -f html-native_divs-native_spans -i jls-1.html -t markdown -o test2.md  

问题 1:我得到了以下 markdown 文件,其中包含无法重定向到同一文档的另一部分的组件链接表。当我单击此链接时,它们会返回这样的外部 GitHub 页面:https://gist.github.com/lostdinar2/jls-1.html#jls-1.1 不可用。 测试3.md

问题1的演示:

1)我想将此 HTML 内部 id 链接(#)转换为重定向到同一文档的另一部分的降价内部链接

<dt><span class="section"><a href="jls-2.html#jls-2.2">2.2. The Lexical Grammar</a></span></dt>

[link text](#abcd)

2)但是pandoc无法将此链接转换为markdown内部链接。Pandoc创建一个像这样的外部链接:https ://gist.github.com/lostdinar2/jls-1.html#jls-1.1

是否有 pandoc 参数来解决这个问题?我在 pandoc 文档上进行了搜索,但我无法执行此功能。

标签: documentationpandoc

解决方案


推荐阅读