php - 自动化 XML 解析并将 docx 转换为 pdf
问题描述
我已经很多年没有编程了,但需要使以下过程自动化。
政府医药当局在其网站上发布了一个 xml 文件。我需要下载并解析它并捕获具有 docx 文件的 url 的字段之一。然后我需要将它以 pdf 格式存储在我们的本地文件系统中。需要每n天重复一次这个过程。
我曾经非常了解 PHP,但是对于这项任务来说,这还可以吗?蟒蛇会更好。由于我没有工作服务器,所以想买一个 Raspberry Pi。
你会建议我如何解决这个问题。
我有一些使用 wget 或 curl 通过 cron 作业获取 xml 文件的想法。然后使用 php 或 python 或 bash 来解析 xml 文件,使用 wget 或 curl nad 调用 docx,然后使用 pdf 命令行工具。如果它在网站上,我应该将结果加载到 sql db 中,还是将它们列为目录中的文件。
将不胜感激任何想法。
马丁
解决方案
我个人会选择node.js。在树莓派上设置节点服务器很容易,并且 node.js 有一个几乎可以用于任何东西的库。那里有很多简单的设置教程,SO 有很多信息,例如node 中的 xml 解析。JavaScript 很容易编写代码。
例如,如果你需要一个 docx 转换器,这里有一个:mammoth.js
祝你好运!
推荐阅读
- javascript - Discord 机器人未启动
- types - PowerBI:在可视化中使用多种数据类型格式进行测量
- r - 从R中的日期时间提取月份和年份
- python - 我真的被上下文管理器(__enter__&__exit__)和mysql.connector卡住了一个错误
- github-actions - Github 操作通知以松弛所有 repos
- sql - 如何先按 id 分组,然后按次要重复字段分组?
- flutter - 构建颤振应用程序时出现此错误配置项目“:image_cropper”时出现问题。>
- java - 使用快捷键在 SWT 表中添加 SWT 上下文菜单
- python - 拥有一个可以通过 Django Rest Framework 上的路由器基名解析的通用视图集
- sql-server - 查找 pk 为 int(不是 bigint)的最大表