c# - 使用 Excel 自动提取 PDF 数据
问题描述
问题
我目前有一个 PDF 目录,其中包含我想要转换为 Excel 的结构良好的表格数据。(用于最终存储在 SqlServer 中)
我目前的解决方案
在 Excel 中 - 运行自定义 M 查询,从 PDF 中提取数据并将其转换为 Excel 文件。
这里的问题是使用 Excel 需要一个人去点击一个按钮然后等待。我有大量的 PDF,目前的手动解决方案会花费太长时间。我想将其端到端自动化(或者,在这种情况下,目录-of-pdfs-to-excel-and-database)。此外,虽然表格本身是一致的,但它们可能出现在 PDF 中的不同位置。对于人类来说,找到正确的表格很容易,但我不确定这会在自动化过程中走向何方。
我想使用我公司已经使用的技术来做到这一点。
- VS/C#(dotnet core 3.1)、SSMS/SqlServer、Excel 及相关产品。
问题
有没有办法在 C# 中访问 Excel 的 import-pdf-data 功能?
我可以以某种方式使用来自 C# 的 M 查询吗?
是否可以跳过 Excel 直接导入 PDF -> SqlServer?
我的理想解决方案
using somePowerQueryLibrary;
using someExcelLibrary;
private void loadExcelFromPdf(string dir, PowerQuery M_query)
{
// ???
}
public void PdfsToDb(string dir)
{
var M_query = PQ.fromString("My query string");
var xl = loadExcelFromPdf(dir, M_query);
...
}
或者
A database function that can pull directly PDF -> MSSQL would work too.
解决方案
推荐阅读
- java - Cosmos SQL upsert 未按预期工作
- java - 对测试失败进行截图
- javascript - Firefox 中的 HTML 输出元素默认值
- javascript - 自动滚动到页面右侧(取决于图像的大小)
- python - python 3中关于@property的一些疑问
- operating-system - 如何对照 PT 条目检查页码?
- string - Bash:一个、另一个或两个的外壳字符串匹配
- macos - 想知道如何在文件名增加时删除文件?
- gcloud - Google cloud_sql_proxy 让我的连接保持活跃
- spring - Spring cloud sleuth 未将密钥附加到 Hibernate 查询日志