首页 > 解决方案 > 在 RTF 文件中提取 obj 数据的最简单方法

问题描述

我想提取 RTF 文件中嵌入的 OLE 对象。我更喜欢用 Java 实现它,所以我阅读了 Apache Tika RTFParser (1.25 & 2.0-ALPHA) 的文档和源代码,发现 Tika 只是提取文本用于搜索目的,无法获取 obj 数据。也许基于TextExtractor编写一些代码是可行的。

然后我也在C# 中尝试了这篇文章,但if (type != 3) // 3 is file, 1 is link在 PackagedObject.Extract 中出现错误。

谁能帮我弄清楚在 RTF 文件中提取 obj 数据的最简单方法(更少代码)是什么?首选跨平台和服务器端解决方案(Java 或 .net-core)。但是使用Word。C# 中的应用程序并不重要,因为它依赖于 Word 客户端,有时会意外终止。

标签: javaasp.net-corertfapache-tika

解决方案


如果您想使用 Apache Tika 提取原始字节,请尝试使用 Tika 应用程序的 -z 命令行选项或使用 tika-server的/unpack 端点。是的,Tika 专注于文本/元数据提取,但它也可用于提取原始嵌入文件。


推荐阅读