r - R抓取隐藏的pdf url以阅读pdf
问题描述
我正在使用 R 和 rvest 来抓取一些会议摘要,但一些信息(隶属关系)仅在摘要的 PDF 中,而不是 html。
下载 pdf 网址似乎是隐藏/动态的。我无法右键单击并获取 url,也无法在 chrome 的检查工具中显示链接。我需要的是阅读 pdf 作为文本并提取缺失的信息。我有订阅,但在 TOS 中没有看到任何关于抓取/抓取的内容。
除了 rselenium 之外还有其他解决方案吗?
该部分的HTML片段如下。当我点击实际的 pdf 时,没有基于此信息的可复制模式。
<div class="download-pdf"><div class="access-options pdfItem-options">
<div class="ft-download-content ft-download-content--pdf">
<form method="POST" action="/deliver/fulltext/we_dome1_09.pdf?itemId=%2Fcontent%2Fpapers%2F10.3997%2F2214-4609.202011287&mimeType=pdf&containerItemId=content/serial/2214-4609" target="/content/papers/10.3997/2214-4609.202011287-pdf" data-title="Download" data-itemid="http://instance.metastore.ingenta.com/content/papers/10.3997/2214-4609.202011287" class="ft-download-content__form ft-download-content__form--pdf js-ft-download-form ">
<i class="fa fa-file-pdf-o
access-options-icon" aria-hidden="true" title="Download"></i>
<span class="hidden-xxs">PDF</span>
</form>
</div>
</div></div>
解决方案
推荐阅读
- docker - 如何真正删除 Docker blob 和图像以释放私有 Docker 注册表中的空间
- python - 在 Python 中找到一些文本后如何阅读某些行?
- r - 如何从 R 中的帮助页面获取文本数据?
- javascript - Firebase中孩子的大小
- xamarin - 如何使用 System.Drawing。Xamarin 中的常用包
- php - php Smarty 部分循环两个空被不必要地创建
- python - 通过电子邮件导出为终端提供 Python 的每个新“值”
- c# - WPF 任务管理器:处理刷新 CPU 负载值?
- android - 无法从 Google 相册应用中选择图片
- python - python nltk——句子/短语的词干列表