首页 > 解决方案 > R抓取隐藏的pdf url以阅读pdf

问题描述

我正在使用 R 和 rvest 来抓取一些会议摘要,但一些信息(隶属关系)仅在摘要的 PDF 中,而不是 html。

下载 pdf 网址似乎是隐藏/动态的。我无法右键单击并获取 url,也无法在 chrome 的检查工具中显示链接。我需要的是阅读 pdf 作为文本并提取缺失的信息。我有订阅,但在 TOS 中没有看到任何关于抓取/抓取的内容。

除了 rselenium 之外还有其他解决方案吗?

该部分的HTML片段如下。当我点击实际的 pdf 时,没有基于此信息的可复制模式。

<div class="download-pdf"><div class="access-options pdfItem-options">
<div class="ft-download-content ft-download-content--pdf">
<form method="POST" action="/deliver/fulltext/we_dome1_09.pdf?itemId=%2Fcontent%2Fpapers%2F10.3997%2F2214-4609.202011287&amp;mimeType=pdf&amp;containerItemId=content/serial/2214-4609" target="/content/papers/10.3997/2214-4609.202011287-pdf" data-title="Download" data-itemid="http://instance.metastore.ingenta.com/content/papers/10.3997/2214-4609.202011287" class="ft-download-content__form ft-download-content__form--pdf js-ft-download-form ">
<i class="fa fa-file-pdf-o 
access-options-icon" aria-hidden="true" title="Download"></i>
<span class="hidden-xxs">PDF</span> 
</form>
</div>
</div></div>

标签: rpdfweb-scrapingrvest

解决方案


推荐阅读