r - Web抓取一个延伸到R中“下一页”页面(不更改url)的表
问题描述
我正在尝试从此页面中抓取表格。该表有大约 400 行,其中一次只显示 50 行。
即使我在显示后面的项目时打开源代码(单击下一步后),页面的源代码也只显示前50 个项目。源代码片段如下:
50
</td><td>
<span id="cphBody_GridPriceData_Labdistrict_name_49">Bangalore</span>
</td><td>
<span id="cphBody_GridPriceData_LabdMarketName_49">Bangalore</span>
</td><td>
<span id="cphBody_GridPriceData_Labcomm_name_49">Potato</span>
</td><td>
<span id="cphBody_GridPriceData_LabdVariety_49">Local</span>
</td><td>
<span id="cphBody_GridPriceData_LabdVariety_49">FAQ</span>
</td><td>
<span id="cphBody_GridPriceData_LabMinPrice_49">1800</span>
</td><td>
<span id="cphBody_GridPriceData_Labmaxpric_49">1900</span>
</td><td>
<span id="cphBody_GridPriceData_LabModalpric_49">1850</span>
</td><td>
<span id="cphBody_GridPriceData_LabReportedDate_49">06 May 2020</span>
</td>
</tr><tr align="left">
<td colspan="10"><table>
<tr>
<td><input type="image" src="../images/Next.png" alt=">" onclick="javascript:__doPostBack('ctl00$cphBody$GridPriceData','Page$Next');return false;" /></td><td><input type="image" src="../images/Last.png" alt=" >>" onclick="javascript:__doPostBack('ctl00$cphBody$GridPriceData','Page$Last');return false;" /></td>
</tr>
</table></td>
</tr>
</table>
我不知道 Java,但从网上发现 R 中的 V8 包可用于网页上的 Java 渲染内容。在上面的代码中,我认为这onclick="javascript:__doPostBack('ctl00$cphBody$GridPriceData','Page$Next');return false;
是可以访问表的下一部分的部分。该__doPostBack
函数在上面页面的源代码中定义。
我将表格刮到第 50 行并使用html_nodes("script")
. 但无法获取函数的调用部分。
如何从下一页获取数据?
为长篇道歉。
解决方案
推荐阅读
- php - PHP OAUTH2 "error":"invalid_grant","error_description":"指定的授权码不能被这个客户端应用程序使用。"
- eslint - jhipster 无法加载在“../.eslintrc.json”中声明的插件“@typescript-eslint”:找不到模块“@typescript-eslint/eslint-plugin”
- split - 是否可以在使用 SPLIT() IN BigQuery 创建的数组上使用 STRING_AGG 进行连接
- c++ - 我的 RegSetValueA 函数返回 ERROR_SUCCESS 但不起作用
- java - Android:即使我在 AndroidManifest.xml 中定义了明确的活动类,也无法找到它?
- r - 如何创建仅包含满足条件的行的数据框?
- python - 模块集合类
- wordpress - 在 WooCommerce 中使用过滤器后如何计算产品?
- wordpress - WordPress:添加或启用用户/客户注册?并使内容仅在登录时可见?
- reactjs - 什么是 React App ,它们是移动应用程序还是网站?