首页 > 解决方案 > C++ libcurl - 无法从 URL 检索整个 html 内容

问题描述

使用C++libcurl库,我试图以这种方式从该网站https://www.nutritionix.com/food/Banana获取完整的 HTML :

int main(){
   std::string content;
   curl_global_init(CURL_GLOBAL_ALL);
   CURL *curl = nullptr;
   curl = curl_easy_init();
   if (curl) {
       curl_easy_setopt(curl, CURLOPT_URL, "https://www.nutritionix.com/food/Banana" );
       curl_easy_setopt(curl, CURLOPT_FOLLOWLOCATION, 1L);
       curl_easy_setopt(curl, CURLOPT_WRITEDATA, &content);
       curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, writer);
       CURLcode code = curl_easy_perform(curl);
       curl_easy_cleanup(curl);
   }
   curl_global_cleanup();
   std::cout << content << std::endl;
   system("pause");
}

writer函数是这样定义的:

static int writer(char *data, size_t size, size_t nmemb, std::string *writerData) {
   if (writerData == NULL)
       return 0;
   writerData->append(data, size*nmemb);
   return size * nmemb;
}

通过这种方式,我可以获得少量的 HTML 代码,但是如何检索完整的 HTML 内容以在稍后阶段对其进行解析?

标签: c++screen-scrapinglibcurl

解决方案


您不能,或者更好地说:您拥有网站调用的整个 html 内容。

现代网站上的简单 http 请求只会返回一些 70 字符长的响应以及一些脚本和元数据。脚本在加载时执行,之后会填满页面内容。

自己试试

这是执行上述代码后字符串包含的内容


推荐阅读