首页 > 解决方案 > 我可以使用 Java 捕获警告吗?

问题描述

我正在使用 PdfBox 从 PDF 中提取文本。有时没有可用于 PDF 的 unicode 映射,因此 PdfBox 会发出如下警告:

mar 17, 2021 10:44:11 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+57 (57) in font ArialMT-Identity-H
mar 17, 2021 10:44:11 AM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+158 (158) in font ArialMT-Identity-H

发生这种情况时,我想改用 OCR。伪代码将是这样的:

try{
    String text = getTextUsingPdfBox(PDF)
}
catch(Exception e){
    if (e == UnicodeWarning) String text = getTextUsingOCR(PDF)
}

PS:我知道警告不是例外,但你有想法 PS 2:我愿意接受不同的解决方案

标签: javaexceptionwarningsocrpdfbox

解决方案


推荐阅读