java - 使用 ApacheTika 检测文件扩展名会损坏文件
问题描述
我正在尝试检测作为 InputStream 传递的文件的文件扩展名,扩展名被正确检测到,但此后文件往往会损坏。这是我检测扩展的方法-
public static Optional<String> detectFileExtension(InputStream inputStream) {
// To provide mark/reset functionality to the stream required by Tika.
InputStream bufferedInputStream = new BufferedInputStream(inputStream);
String extension = null;
try {
MimeTypes mimeRepository = getMimeRepository();
MediaType mediaType = mimeRepository.detect(bufferedInputStream, new Metadata());
MimeType mimeType = mimeRepository.forName(mediaType.toString());
extension = mimeType.getExtension();
log.info("File Extension detected: {}", extension);
// Need to reset input stream pos marker since it was updated while detecting the extension
inputStream.reset();
bufferedInputStream.close();
} catch (MimeTypeException | IOException ignored) {
log.error("Unable to detect extension of the file from the provided stream");
}
return Optional.ofNullable(extension);
}
private static MimeTypes getMimeRepository() {
TikaConfig config = TikaConfig.getDefaultConfig();
return config.getMimeRepository();
}
现在,当我尝试在扩展检测后再次使用相同的 InputStream 保存此文件时 -
byte[] documentContentByteArray = IOUtils.toByteArray(inputStream);
Optional<String> extension = FileTypeHelper.detectFileExtension(inputStream);
if (extension.isPresent()) {
fileName = fileName + extension.get();
} else {
log.warn("File: {} does not have a valid extension", fileName);
}
File file = new File("/tmp/" + fileName);
FileUtils.writeByteArrayToFile(file, documentContentByteArray);
它会创建一个文件,但文件已损坏。我猜在 detectFileExtension 中的流消耗后,流没有正确重置。如果有人在一些指导之前已经这样做了,那就太好了,在此先感谢。
解决方案
我通过不一次又一次地使用相同的输入流来修复它。我创建了一个新流来传递扩展检测和创建文件的初始流。
byte[] documentContentByteArray = IOUtils.toByteArray(inputStream);
//extension detection
InputStream extensionDetectionInputStream = new ByteArrayInputStream(documentContentByteArray);
Optional<String> extension = FileTypeHelper.detectFileExtension(inputStream);
if (extension.isPresent()) {
fileName = fileName + extension.get();
} else {
log.warn("File: {} does not have a valid extension", fileName);
}
extensionDetectionInputStream.close();
//File creation
File file = new File("/tmp/" + fileName);
FileUtils.writeByteArrayToFile(file, documentContentByteArray);
如果有更好的方法可以通过重用相同的流来做到这一点,那就太好了,我很乐意接受这个答案,现在,我将其标记为已接受的答案。
推荐阅读
- python - 地牢爬行 - 地图
- java - Spark Rdd 输出到 Kafka 主题
- rust - 如何从 Actix-web 中 HTML 表单的 POST 请求中获取参数?
- android - 在 iOS 和 Android 上 memcpy() / mktime() 线程安全吗?
- python-3.x - python 中的 Selenium webdriver find_element_by_id() 方法使用 phantomjs 引发错误
- python - 将行转换为python中的列
- java - Selenium (Java):如何定位浏览器验证消息?
- excel - 优化宏:表格清空内容
- python - 使用 R/Python 将 SAS 文件 (sas7bdat) 转换为平面文件,没有内存限制
- arrays - 如果 AC-AF 列包含空白,则剪切并粘贴行