documentation - 如何使用 pandoc 将特定网页转换为 markdown 或 asciidoc?
问题描述
我想将java 规范文档转换为易于编辑的格式(markdown 或 asciidoc)并上传 GitHub Gist 和自定义(添加我的代码经验和注释。)我想转换成这样的东西
我使用了一个名为 pandoc 的工具,它允许我们从 HTML 转换为 markdown。
我尝试了以下操作:
技术 1 我试图在 index.html 上转换 java 规范的所有组件表
pandoc -f html -t markdown -o test2.md
https://docs.orac le.com/javase/specs/jls/se10/html/index.html`
我得到了这个:tes2.md (我没有在这里上传,因为内容文件太长了)
问题1:这个markdown文件没有java规范文档的内容。我希望我在 markdown 文件中获得 markdown toc(组件表)和 java 规范文档内容,如下所示`
问题 2:当单击此降价文件上的链接时,我得到 404 错误页面。
技术2(优于技术1) 我用HTTrack下载了TOC的所有HTML文件,并尝试分别转换所有文件。
pandoc -f html-native_divs-native_spans -i jls-1.html -t markdown -o test2.md
问题 1:我得到了以下 markdown 文件,其中包含无法重定向到同一文档的另一部分的组件链接表。当我单击此链接时,它们会返回这样的外部 GitHub 页面:https://gist.github.com/lostdinar2/jls-1.html#jls-1.1 不可用。 测试3.md
问题1的演示:
1)我想将此 HTML 内部 id 链接(#)转换为重定向到同一文档的另一部分的降价内部链接
<dt><span class="section"><a href="jls-2.html#jls-2.2">2.2. The Lexical Grammar</a></span></dt>
[link text](#abcd)
2)但是pandoc无法将此链接转换为markdown内部链接。Pandoc创建一个像这样的外部链接:https ://gist.github.com/lostdinar2/jls-1.html#jls-1.1
是否有 pandoc 参数来解决这个问题?我在 pandoc 文档上进行了搜索,但我无法执行此功能。
解决方案
推荐阅读
- pdf - XF skiasharp 下载损坏的 PDF
- sql - 使用 SELECT FROM 添加临时 ID 列的 SQL 查询 - 读取 Excel 文件时
- c - 在不使用 3rd(临时变量)的情况下进行交换在这个程序中给出了不同的答案,有人可以告诉我为什么吗?
- laravel-8 - 我想做 php artisan db:seed,然后我得到这个错误“ErrorException array_merge(): Expected parameter 2 to be an array, int given”
- firebase - 不同的子域如何指向同一个IP,到达不同的网页?
- algorithm - 找到所有给定圆圈覆盖的点
- javascript - 无法从 v-for 获取数据且数据为空
- javascript - 即使字段被禁用,ontouchend 事件也会以某种方式发生
- django - django 如果我 bulk_update 未更改的值会发生什么?
- python - 求解环境:初始冻结求解失败。使用灵活的求解重试