apache - Apache tika:MSG 删除结果字符串中的额外换行符
问题描述
我有带有正文的 msg 文件:
<html><head></head><body><div style="font-family: Verdana;font-size: 12.0px;">
<div>Test message.</div>
<div> </div>
<div>More content here...</div>
<div> </div>
<div>Best regards,</div>
<div>Mr. Crowley</div></div></body></html>
我尝试使用 Apache Tika 获取上述文件的内容...
final InputStream input = new FileInputStream("file.html");
final ContentHandler handler = new BodyContentHandler();
final Metadata metadata = new Metadata();
final HtmlParser htmlParser = new HtmlParser();
htmlParser.parse(input, handler, metadata, new ParseContext());
String plainText = handler.toString();
System.out.println(plainText);
...一切都很好,除了额外的换行符:
Test message.
More content here...
Best regards,
Mr. Crowley
<and 3 empty lines here>
是否可以避免这种行为?是否有可能获得更多预期的结果?
帮我解决这个问题。
解决方案
推荐阅读
- r - R - 按组的子集
- c# - 为什么 Point[] 在 winforms 集合编辑器中不能正常工作(通过 PropertyGrid)?
- c - 在 C 中寻址多维数组
- javascript - 如何使用正则表达式将内容包装在某个 html 标记内而不影响任何 html 标记
- asp.net-web-api - 我无法使用 umbraco 项目在 WebAPI 中使用 Get 方法
- c# - 与测试证书一起使用,但在使用生产证书时,我得到“请求被中止:无法创建 SSL/TLS 安全通道。”
- android - 使用支持库 27.1.1,当我开始一项活动时,我的应用程序冻结
- r - tsne 去除降维过程中的case
- sql - 将一行记录显示到多列
- unity3d - 为什么我会收到以下上传错误,我该如何解决?