首页 > 解决方案 > 转换过程中的 pdf2htmlEX 错误 - CMap 无效并因字体而被删除

问题描述

我正在使用这个版本https://github.com/pdf2htmlEX/pdf2htmlEX/releases/tag/v0.18.8.rc1

这个debian版本pdf2htmlEX-0.18.8.rc1-master-20200630-Ubuntu-focal-x86_64.deb

当我运行转换时,我得到了一堆这些错误: Working: 97/100ToUnicode CMap is not valid and got dropped for font: b7

这导致空文件,没有任何文本。

我正在通过 docker 运行,这是我的 dockerfile:

FROM ubuntu:20.04

RUN echo 'debconf debconf/frontend select Noninteractive' | debconf-set-selections
ENV DEBIAN_FRONTEND=noninteractive

RUN dpkg --configure -a
RUN apt-get clean
RUN apt-get update 
RUN apt-get install -f -y python3
RUN apt-get install dialog apt-utils -y
RUN apt-get install -f -y python3-pip 
RUN apt-get install -f -y python3-setuptools 
RUN apt-get install -f -y wget 
RUN apt-get install -f -y poppler-utils
RUN apt-get install -f -y poppler-data
RUN apt-get install -f -y jq 
RUN apt-get install -f -y zip unzip
RUN apt-get install -f -y pdftk 
RUN apt-get install -f -y ffmpeg
RUN apt-get install -f -y libfontforge-dev
RUN DEBIAN_FRONTEND=noninteractive; apt-get install -f -y pdftk-java
RUN apt install -f -y ghostscript
RUN pip3 install --upgrade pip \
    && apt-get clean
RUN pip3 --no-cache-dir install --upgrade awscli

WORKDIR /tmp

COPY lib/pdf2htmlEX-0.18.8.rc1-master-20200630-Ubuntu-focal-x86_64.deb /tmp
RUN apt install -y ./pdf2htmlEX-0.18.8.rc1-master-20200630-Ubuntu-focal-x86_64.deb

RUN wget https://www.imagemagick.org/download/ImageMagick.tar.gz && \
    tar -xf ImageMagick.tar.gz && \
    cd ImageMagick* && \
    ./configure && \
    make && \
    make install && \
    ldconfig /usr/local/lib

请告知我该如何解决这个问题?

标签: pdf2htmlex

解决方案


推荐阅读