首页 > 解决方案 > 如何让 PDFTextStripper 逐行提取文本?

问题描述

这是输入的摘录(PDF):

在此处输入图像描述

这是我的代码:

    public static String pdfPageToText(
        PDDocument docIn,
        int pageNumber
    ) {
        String pageText = "";
        try {
            PDFTextStripper stripper = new PDFTextStripper( );
            stripper.setStartPage( pageNumber );
            stripper.setEndPage( pageNumber );
            pageText = stripper.getText( docIn );
        } catch ( Exception e ) {
            LOGGER.severe( e.getMessage( ) );
        }
        return pageText;
    }

提取的文本如下所示:

在此处输入图像描述

我希望它更像这样:

在此处输入图像描述

请指出我正确的方向。谢谢你。

标签: javapdfbox

解决方案


推荐阅读