php - 无法在php中提取pdf文件的内容
问题描述
目前正在验证pdf文件。我在 Laravel 中使用 PHP pdfparser 来提取文件。但有些文件无法提取。我想出了降级pdf文件以解决问题的解决方案,但仍然不适合我。
我试图将 pdf 文件从 1.7 版降级到 1.4 版,但它不允许我这样做。
namespace App\Http\Controllers;
use Illuminate\Http\Request;
use Smalot\PdfParser\Parser;
use Xthiago\PDFVersionConverter\Guesser\RegexGuesser;
use Symfony\Component\Filesystem\Filesystem;
use Xthiago\PDFVersionConverter\Converter\GhostscriptConverterCommand;
use Xthiago\PDFVersionConverter\Converter\GhostscriptConverter;
class ApiController extends Controller {
public function varifyDocument(Request $request, Parser $parser) {
$request = $request->file();
$file = $request['file'];
//Get the version of the pdf file.
$guesser = new RegexGuesser();
$version = $guesser->guess($file);
//If pdf version is 1.7 then convert it to 1.4.
if($version == "1.7") {
$command = new GhostscriptConverterCommand();
$filesystem = new Filesystem();
$converter = new GhostscriptConverter($command, $filesystem);
$converter->convert($file, '1.4');
}
$pdf = $parser->parseFile($file);
$pages = $pdf->getPages();
foreach ($pages as $page) {
echo $page->getText();
}
}
}
我需要阅读 pdf 文件的内容并确定它是否存在漏洞。
解决方案
推荐阅读
- android-studio - 可模拟的AndroidJar 失败
- jsp - 试图将逗号分隔的字符串转换为列表 struts2 jsp
- python - 熊猫数据框中列的条件错误
- javascript - 引导按钮组中按钮之间的 jQuery 切换类;设置一个并取消设置另一个未设置的其他
- apache-kafka - 使用 Apache Flink 创建 CEP
- pycharm - 在 PyCharm 中,通过键入搜索列表时,如何在搜索结果之间跳转?
- oracle - SQL*Plus 中的条件列格式
- linux - 查找文件,将其转换并保留在 bash 中的原始目录中
- java - Mockito.当用真实对象调用时返回null,必须使用any()
- java - Spring Boot 找不到特定于配置文件的属性文件