首页 > 解决方案 > 没有 S3Object 的 R(爪子)中的文本提取

问题描述

textractpawsR 中的包中使用时,start_document_analysis调用需要 S3Object 中的路径DocumentLocation

textract$start_document_analysis(
    DocumentLocation = list(
      S3Object = list(Bucket = bucket, Name = file)
    )
  )

是否可以在DocumentLocation没有 S3Object 的情况下使用?我宁愿只提供本地 PDF 的路径。

标签: ramazon-web-servicespdf

解决方案


start_document_analysis api 仅支持提供 s3 对象作为输入,而不是像 analyze_document api 这样的 base64 编码字符串(另请参阅https://docs.aws.amazon.com/cli/latest/reference/textract/start-上的 CLI 文档文档分析.html )

所以不幸的是,您必须使用 S3 作为(临时)存储数据的地方。当然,您可以编写自己的逻辑来做到这一点:)。很棒的教程可以在 https://www.gormanalysis.com/blog/connecting-to-aws-s3-with-r/找到 因为你已经设置了凭据等,你可以跳过很多步骤和例如,从第 3 步开始。


推荐阅读