首页 > 解决方案 > 网页抓取问题(尝试过 curl、wget、headless chrome、phantomjs 但仍然有问题......)

问题描述

我正在尝试设置一个监视器来检查我年迈的父母的网站以获取他们的 covid 镜头,这样他们就不必坐在电脑前每 5 分钟按一次刷新。

我需要做的就是从网站获取某种 html(然后我可以搜索关键字、发送电子邮件/文本/等。根据结果我自己就可以了)。

该网站是 https://apps6.health.ny.gov/doh2/applinks/cdmspr/2/counties?OpID=50503446

如果我在 chrome/firefox 中访问,我可以将其下载到 html 中,结果如下所示: https ://i.postimg.cc/KvS6cXR9/screenshot-11.png

但是,无论我选择的方法和输入的参数如何,所有 CLI 尝试都产生了这样的结果: https://i.postimg.cc/bwTcF6Ym/screenshot-11.png (例如,从运行 curl -k "https:/ /apps6.health.ny.gov/doh2/applinks/cdmspr/2/counties?OpID=50503446" -o output.txt)

我也尝试过使用来自 chrome 调试器的更自定义的 curl 命令(即https://i.postimg.cc/kGnWwXT1/screenshot-11.png),但仍然产生了相同的结果(尽管我可能已经运行它有点错误,因为生成的命令不是 100% 与 windows 兼容...)

有任何想法吗?

我不希望手动或通过 GUI 脚本执行此操作...

我确实通过下面尝试了无头镀铬(虽然不是 pupeteer)

"C:\Program Files (x86)\Google\Chrome\Application\chrome" --headless --disable-gpu --print-to-pdf="C:\Data\a-ad hoc\2021-01-17a \新文件夹 (2)\testny.pdf" https://apps6.health.ny.gov/doh2/applinks/cdmspr/2/counties?OpID=50503446

我得到的只是这个 https://i.postimg.cc/nLWGq782/screenshot-11.png

标签: curlweb-scraping

解决方案


推荐阅读