首页 > 解决方案 > 使用 Excel 自动提取 PDF 数据

问题描述

问题

我目前有一个 PDF 目录,其中包含我想要转换为 Excel 的结构良好的表格数据。(用于最终存储在 SqlServer 中)

我目前的解决方案

在 Excel 中 - 运行自定义 M 查询,从 PDF 中提取数据并将其转换为 Excel 文件。

这里的问题是使用 Excel 需要一个人去点击一个按钮然后等待。我有大量的 PDF,目前的手动解决方案会花费太长时间。我想将其端到端自动化(或者,在这种情况下,目录-of-pdfs-to-excel-and-database)。此外,虽然表格本身是一致的,但它们可能出现在 PDF 中的不同位置。对于人类来说,找到正确的表格很容易,但我不确定这会在自动化过程中走向何方。

我想使用我公司已经使用的技术来做到这一点。

问题

有没有办法在 C# 中访问 Excel 的 import-pdf-data 功能?
我可以以某种方式使用来自 C# 的 M 查询吗?
是否可以跳过 Excel 直接导入 PDF -> SqlServer?

我的理想解决方案

using somePowerQueryLibrary;
using someExcelLibrary;

private void loadExcelFromPdf(string dir, PowerQuery M_query)
{
    // ???
}

public void PdfsToDb(string dir)
{
    var M_query = PQ.fromString("My query string");
    var xl = loadExcelFromPdf(dir, M_query);

    ...
}

或者

A database function that can pull directly PDF -> MSSQL would work too.

标签: c#excelpdfpowerquerym

解决方案


推荐阅读