c++ - C++ libcurl - 无法从 URL 检索整个 html 内容
问题描述
使用C++和libcurl库,我试图以这种方式从该网站https://www.nutritionix.com/food/Banana获取完整的 HTML :
int main(){
std::string content;
curl_global_init(CURL_GLOBAL_ALL);
CURL *curl = nullptr;
curl = curl_easy_init();
if (curl) {
curl_easy_setopt(curl, CURLOPT_URL, "https://www.nutritionix.com/food/Banana" );
curl_easy_setopt(curl, CURLOPT_FOLLOWLOCATION, 1L);
curl_easy_setopt(curl, CURLOPT_WRITEDATA, &content);
curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, writer);
CURLcode code = curl_easy_perform(curl);
curl_easy_cleanup(curl);
}
curl_global_cleanup();
std::cout << content << std::endl;
system("pause");
}
writer
函数是这样定义的:
static int writer(char *data, size_t size, size_t nmemb, std::string *writerData) {
if (writerData == NULL)
return 0;
writerData->append(data, size*nmemb);
return size * nmemb;
}
通过这种方式,我可以获得少量的 HTML 代码,但是如何检索完整的 HTML 内容以在稍后阶段对其进行解析?
解决方案
您不能,或者更好地说:您拥有网站调用的整个 html 内容。
现代网站上的简单 http 请求只会返回一些 70 字符长的响应以及一些脚本和元数据。脚本在加载时执行,之后会填满页面内容。
自己试试
- 访问https://www.nutritionix.com/food/Banana
- Ctrl + 转移 + 我
- 转到网络选项卡并重新加载页面
- 单击列表中名为“香蕉”的第一项
- 点击右侧的“回复”
这是执行上述代码后字符串包含的内容
推荐阅读
- python - Noob python if语句在false时运行
- python - Python pandas数据框:循环遍历每一行,如果条件为真,更新列
- sql - Postgres 事件触发器给出“错误:没有选择要创建的模式”
- javascript - 优化 Nodejs 代码以在数组中查找字符串的字谜。解决方案不应该使用所有子集来查找字符串的字谜
- c# - 如何在 C# 中从 Npgsql 4.1.5.0 执行匿名块 PL/pgSQL (PostgreSQL 13)
- python - Discord.py 错误 discord.ext.commands.errors.CommandInvokeError:命令引发异常:TypeError:'dict' 对象不可调用
- typescript - 使用泛型获取我的小 compose 函数的类型化结果
- spring - 更新多个购物车商品数量。Spring Boot - Thymeleaf
- python - 如何将 CSS 文件链接到 Django 的 pdf.html 文件,修复 FileNotFoundError
- javascript - Vanilla JS如何更新本地存储数组中的值?