r - 没有 S3Object 的 R(爪子)中的文本提取
问题描述
textract
从paws
R 中的包中使用时,start_document_analysis
调用需要 S3Object 中的路径DocumentLocation
。
textract$start_document_analysis(
DocumentLocation = list(
S3Object = list(Bucket = bucket, Name = file)
)
)
是否可以在DocumentLocation
没有 S3Object 的情况下使用?我宁愿只提供本地 PDF 的路径。
解决方案
start_document_analysis api 仅支持提供 s3 对象作为输入,而不是像 analyze_document api 这样的 base64 编码字符串(另请参阅https://docs.aws.amazon.com/cli/latest/reference/textract/start-上的 CLI 文档文档分析.html )
所以不幸的是,您必须使用 S3 作为(临时)存储数据的地方。当然,您可以编写自己的逻辑来做到这一点:)。很棒的教程可以在 https://www.gormanalysis.com/blog/connecting-to-aws-s3-with-r/找到 因为你已经设置了凭据等,你可以跳过很多步骤和例如,从第 3 步开始。
推荐阅读
- c++ - 使用传递引用增加另一个函数中的变量
- machine-learning - 什么时候应该训练自己的模型,什么时候应该使用预训练模型?
- typescript - 如何为 Typescript 中具有受保护成员的类编写接口
- python - 我想传递一些额外的值 Pydantics 类,这些额外的值被`@validator`方法使用
- configuration - 是否可以每次在 Python 中使用 Dispatch COMmand 打开新的 Canoe Config?
- python - 在每次迭代期间,我的列表中的所有元素都被替换而不是 1
- statistics - 将已知值外推到表中缺失值的最佳数据挖掘模型是哪个?(一般问题)
- javascript - 异步函数正在阻止 return false 工作
- azure - 缓慢批量插入 Azure 数据库
- java - 数据流/光束累加器编码器