首页 > 解决方案 > 自动化 XML 解析并将 docx 转换为 pdf

问题描述

我已经很多年没有编程了,但需要使以下过程自动化。

政府医药当局在其网站上发布了一个 xml 文件。我需要下载并解析它并捕获具有 docx 文件的 url 的字段之一。然后我需要将它以 pdf 格式存储在我们的本地文件系统中。需要每n天重复一次这个过程。

我曾经非常了解 PHP,但是对于这项任务来说,这还可以吗?蟒蛇会更好。由于我没有工作服务器,所以想买一个 Raspberry Pi。

你会建议我如何解决这个问题。

我有一些使用 wget 或 curl 通过 cron 作业获取 xml 文件的想法。然后使用 php 或 python 或 bash 来解析 xml 文件,使用 wget 或 curl nad 调用 docx,然后使用 pdf 命令行工具。如果它在网站上,我应该将结果加载到 sql db 中,还是将它们列为目录中的文件。

将不胜感激任何想法。

马丁

标签: phppythonxmlpdf

解决方案


我个人会选择node.js。在树莓派上设置节点服务器很容易,并且 node.js 有一个几乎可以用于任何东西的库。那里有很多简单的设置教程,SO 有很多信息,例如node 中的 xml 解析。JavaScript 很容易编写代码。

例如,如果你需要一个 docx 转换器,这里有一个:mammoth.js

祝你好运!


推荐阅读