java - 在 RTF 文件中提取 obj 数据的最简单方法
问题描述
我想提取 RTF 文件中嵌入的 OLE 对象。我更喜欢用 Java 实现它,所以我阅读了 Apache Tika RTFParser (1.25 & 2.0-ALPHA) 的文档和源代码,发现 Tika 只是提取文本用于搜索目的,无法获取 obj 数据。也许基于TextExtractor编写一些代码是可行的。
然后我也在C# 中尝试了这篇文章,但if (type != 3) // 3 is file, 1 is link
在 PackagedObject.Extract 中出现错误。
谁能帮我弄清楚在 RTF 文件中提取 obj 数据的最简单方法(更少代码)是什么?首选跨平台和服务器端解决方案(Java 或 .net-core)。但是使用Word。C# 中的应用程序并不重要,因为它依赖于 Word 客户端,有时会意外终止。
解决方案
如果您想使用 Apache Tika 提取原始字节,请尝试使用 Tika 应用程序的 -z 命令行选项或使用 tika-server的/unpack 端点。是的,Tika 专注于文本/元数据提取,但它也可用于提取原始嵌入文件。
推荐阅读
- css - 我正在使用 gulp-autoprefixer,无论我选择什么选项,它都不起作用
- c# - SignalR Core 检测连接是否被客户端或服务器关闭
- android - Firestore数据库android中的权限缺失或不足
- bash - 条件满足时 Bash 脚本不会继续
- reactjs - 如何从天气api中的日期检索数据?
- python - gunicorn 启动中的 ModuleNotFoundError
- controller - 如何从控制器中的标头获取 JWT 令牌
- python - 如何在单击后禁用按钮并在登录过程完成后通过检查 django 中的服务器响应来启用它
- javascript - 如何让两个 Promise 同步执行?
- javascript - NuxtJS 页面标题不变