curl - 网页抓取问题(尝试过 curl、wget、headless chrome、phantomjs 但仍然有问题......)
问题描述
我正在尝试设置一个监视器来检查我年迈的父母的网站以获取他们的 covid 镜头,这样他们就不必坐在电脑前每 5 分钟按一次刷新。
我需要做的就是从网站获取某种 html(然后我可以搜索关键字、发送电子邮件/文本/等。根据结果我自己就可以了)。
该网站是 https://apps6.health.ny.gov/doh2/applinks/cdmspr/2/counties?OpID=50503446
如果我在 chrome/firefox 中访问,我可以将其下载到 html 中,结果如下所示: https ://i.postimg.cc/KvS6cXR9/screenshot-11.png
但是,无论我选择的方法和输入的参数如何,所有 CLI 尝试都产生了这样的结果: https://i.postimg.cc/bwTcF6Ym/screenshot-11.png (例如,从运行 curl -k "https:/ /apps6.health.ny.gov/doh2/applinks/cdmspr/2/counties?OpID=50503446" -o output.txt)
我也尝试过使用来自 chrome 调试器的更自定义的 curl 命令(即https://i.postimg.cc/kGnWwXT1/screenshot-11.png),但仍然产生了相同的结果(尽管我可能已经运行它有点错误,因为生成的命令不是 100% 与 windows 兼容...)
有任何想法吗?
我不希望手动或通过 GUI 脚本执行此操作...
我确实通过下面尝试了无头镀铬(虽然不是 pupeteer)
"C:\Program Files (x86)\Google\Chrome\Application\chrome" --headless --disable-gpu --print-to-pdf="C:\Data\a-ad hoc\2021-01-17a \新文件夹 (2)\testny.pdf" https://apps6.health.ny.gov/doh2/applinks/cdmspr/2/counties?OpID=50503446
解决方案
推荐阅读
- swiftui - 在 Xcode 12(测试版)中使用实时预览时无法在 TextField 中输入文本
- wpf - 带有绑定的 Button.LostFocus 上的 WPF 触发器
- .net - 使用 SSH.NET 响应交互式 shell 提示
- nginx - X-Forwarded-Proto 标头作为 http 发送,即使在 nginx 中将值设置为 https
- reactjs - Material UI - 如何在条件下禁用选择
- xcode - Xcode 12 beta 不支持 iOS 13.6 beta 配置
- python - python解析以星号开头和结尾的文本
- python-3.x - Pandas 中的数据框转换
- javascript - 如何在reactjs中制作这样的自定义单选按钮
- node.js - MongoDB 聚合与 Mongoose 虚拟