python - 从嵌入式 Microsoft Power BI 表和图形中抓取网页
问题描述
1. 问题总结
我想跟踪和可视化 COVID19 的趋势和时间序列,因为我必须将我的孩子送到一个禁止戴口罩的州和县上学,但无论如何都没有勇气实施。上周,我使用Python
、Selenium
和Beautiful Soup
. 它并不漂亮,但它可以抓取数据,我构建了一个 Jupyter 笔记本来分析数据。这是存储库:
https://github.com/Rosenheim-Lab/PCS_COVID.git
当我进行分析并生成前几个数据时,该县改变了他们网站的格式以报告数据。现在它是一个似乎由 Microsoft Power BI 驱动的网站,并且没有可以访问表格数据的链接。仍然有一个可视化,我想知道是否有从这种类型的木工中刮下来的东西。他们的 COVID19 仪表板在这里:https ://www.pcsb.org/COVID19Cases 。
2. 我尝试过 的内容 在 repo 中,您可以看到我有一个基于 Jupyter notebook 的抓取页面,该页面使用 Python 模块以及用于数据分析和可视化的 Jupyter notebook。我是网络抓取的新手,并且从一些朋友那里得到了很多帮助。这不是最干净、最精简、最简陋的代码,但它确实有效。现在它不起作用,因为我无法通过 Power BI UI 与这种新格式进行交互。
代码? 我还没有尝试编写代码。我之前做的唯一方法是使用 Selenium 和 webdriver。我无法找到列表数据在这个新设置中的位置。我做了这样的简单分析:我想保持这种状态。以相同格式获取数据会很棒,但是它们不会以该格式显示。最终,我想绘制学校地图并将感染百分比与该县的政治地图进行比较。
解决方案
推荐阅读
- docker - 如何将活动目录集成到 Grafana docker 容器中?
- .net - 如何在 Frame.Navigate 调用后获取导航页面的实际实例?
- php - 如何处理 SOAP-WSDL 响应
- azure - 如何在 Azure ARM 模板中指定子/父关系中的不同资源?
- html - 如何修复“使用 CSS Clip-Path 悬停时 div 的背景问题”
- amazon-dynamodb - 如果项目在本地 dynamodb 中超过 1350+,则无法正确插入
- javascript - Nodejs无法减去数字
- python - 使用 x,y 坐标从 Pandas 数据框中删除数据并插入到另一个数据框中
- redux - redux 复杂对象不会触发更新
- terraform - Terraform - 模块之间的依赖关系