首页 > 解决方案 > Apache tika:MSG 删除结果字符串中的额外换行符

问题描述

我有带有正文的 msg 文件:

<html><head></head><body><div style="font-family: Verdana;font-size: 12.0px;">
<div>Test message.</div>
<div>&nbsp;</div>
<div>More content here...</div>
<div>&nbsp;</div>
<div>Best regards,</div>
<div>Mr. Crowley</div></div></body></html>

我尝试使用 Apache Tika 获取上述文件的内容...

final InputStream input = new FileInputStream("file.html");
final ContentHandler handler = new BodyContentHandler();
final Metadata metadata = new Metadata();

final HtmlParser htmlParser = new HtmlParser();
htmlParser.parse(input, handler, metadata, new ParseContext());
String plainText = handler.toString();
System.out.println(plainText);

...一切都很好,除了额外的换行符:

Test message.



More content here...



Best regards,

Mr. Crowley
<and 3 empty lines here>

是否可以避免这种行为?是否有可能获得更多预期的结果?

帮我解决这个问题。

标签: apacheapache-tika

解决方案


推荐阅读