python - 从 .asp 文件中获取数据
问题描述
我女朋友的任务是从网页中获取所有数据。该网页属于成人教育中心。要访问该网页,您必须先登录。该 url 是一个 .asp 文件。
她必须将数据放入 Excel 工作表中。条目有学生姓名、编号、身份证号、电话等,条目数以千计。仅 HR 学生就有 70 页的条目。这一切都以表格的形式显示在网页上。可以复制和粘贴。
我可以合理地处理 Python openpyxl,并且我听说过 web-scraping,我相信 Python 可以做到。
我不知道.asp 是什么。
您能否给我一些关于如何使用 Python 获取数据的提示和指示?
我可以自动执行此任务吗?
这是 MySQL 的情况吗?(对此我一无所知。)
解决方案
这是一个非常广泛的问题,而不是 Stack Overflow 的风格。无论如何给你一些指示。最后,据我所知,.asp 文件的行为与普通网站一样。普通网站在浏览器中解释,如 HTML、CSS 等。这可以用 Python 解析。我过去使用过两种方法来解决这个问题。一种是使用库,例如requests
获取页面的 HTML,然后使用BeautifulSoup
库读取它。如果您需要访问经过身份验证的页面,这会变得更加复杂。另一种选择是使用Selenium
对于蟒蛇。这个模块更像是一个自动浏览本身的工具。您可以使用它来自动访问网站并输入登录凭据,然后阅读页面上的内容。可能有更多选择,这就是为什么这个问题太宽泛了。祝你的项目好运!
编辑:您不需要 MySql。尤其是如果所需的输出是 Excel 文件,我会将其生成为 CSV,因为标准 Python 处理 CSV 文件比处理 Excel 更好。
推荐阅读
- java - 测试 toString 时,为什么需要调用 toString?
- javascript - 打印 Firestore 对象
- openshift - 如何在openshift的`oc ... -o json`命令中输出纯JSON而没有警告
- javascript - POST 请求无法识别标头
- ios - 自定义 UIButton 中的 UILabel 使用 AutoLayout 调整到按钮的大小
- python - 当用户回答“是”时尝试循环回到程序的开头
- google-sheets-formula - Google 电子表格:使用 QUERY 和 IMPORTRANGE,根据条件在远程工作表上对两个单独的范围求和
- c# - OpenID Connect 是否需要 OAuth 之上的其他库?
- matrix - 轴不匹配数组/大小不匹配,m1:[132096 x 344],m2:[118336 x 128]
- reactjs - 如何修复 setState 在反应上下文中不更新