java - 如何获取 Office 文档的子类型 MIME,而不是在 Tika 中获取 OOXML
问题描述
我正在使用 Tika 来验证文件类型,并确保没有人试图以真实文件的名义发送恶意或虚假文件。为此,我正在使用 Apache Tika。但是,即使我将 InputStream 包装到 TikaInputStream 中,或者使用 OOXMLParser 或 OfficeParser,它仍然返回 application/x-tika-ooxml 而不是 application/vnd.openxmlformats-officedocument.wordprocessingml.document。我如何访问或让它返回子类型?
public static boolean isValidFileMimeType(TikaInputStream stream, String[] validMimes) {
Tika tika = new Tika();
try {
Metadata meta = new Metadata();
tika.detect(stream, meta);
String mimetype = meta.get("Content-Type");
logger.debug("MIME type from TIKA is : [" + mimetype +"]");
logger.debug(meta.toString());
//return isValidFileMimeType(mimetype, validMimes);
return true;
} catch (Exception e) {
logger.error("Error validating InputStream: ", e);
return false;
}
public static boolean isValidFileMimeType(MultipartFile file, String[] mimeTypes) {
TikaInputStream in = null;
boolean isValidFile = false;
try {
in = TikaInputStream.get(file.getInputStream());
isValidFile = DataValidator.isValidFileMimeType(in, mimeTypes);
} catch (IOException e) {
logger.error("Error while validating file mime type: ", e);
} finally {
if (in != null) {
try {
in.close();
} catch (IOException e2) {
logger.error("Error while closing InputStream: ", e2);
}
}
}
return isValidFile;
}
解决方案
只需导入/使用 Tika 解析器
推荐阅读
- openedge - 如何使用按钮更改浏览窗口的大小?
- r - 过滤行数大于列数的*n矩阵
- google-apps-script - 通过 google.script.run 上传文件
- azure - Azure 网站文件上传文件未找到异常
- sql - 根据组中值对的条件选择行
- angular - 使用 Angular 在 Azure Maps 中绘制一条线
- javascript - Fabricjs:画布内存使用超过iPad中的最大限制
- c# - Angular6 POST 请求仍处于待处理状态
- reactjs - 为什么我需要为反应原生应用安装 npm
- c - 为什么我的 C 代码会抛出分段错误,即使返回指针指向看似有效的 shellcode 的内存地址?