首页 > 解决方案 > 从 .asp 文件中获取数据

问题描述

我女朋友的任务是从网页中获取所有数据。该网页属于成人教育中心。要访问该网页,您必须先登录。该 url 是一个 .asp 文件。

她必须将数据放入 Excel 工作表中。条目有学生姓名、编号、身份证号、电话等,条目数以千计。仅 HR 学生就有 70 页的条目。这一切都以表格的形式显示在网页上。可以复制和粘贴。

我可以合理地处理 Python openpyxl,并且我听说过 web-scraping,我相信 Python 可以做到。

我不知道.asp 是什么。

您能否给我一些关于如何使用 Python 获取数据的提示和指示?

我可以自动执行此任务吗?

这是 MySQL 的情况吗?(对此我一无所知。)

标签: python

解决方案


这是一个非常广泛的问题,而不是 Stack Overflow 的风格。无论如何给你一些指示。最后,据我所知,.asp 文件的行为与普通网站一样。普通网站在浏览器中解释,如 HTML、CSS 等。这可以用 Python 解析。我过去使用过两种方法来解决这个问题。一种是使用库,例如requests​​获取页面的 HTML,然后使用BeautifulSoup库读取它。如果您需要访问经过身份验证的页面,这会变得更加复杂。另一种选择是使用Selenium对于蟒蛇。这个模块更像是一个自动浏览本身的工具。您可以使用它来自动访问网站并输入登录凭据,然后阅读页面上的内容。可能有更多选择,这就是为什么这个问题太宽泛了。祝你的项目好运!

编辑:您不需要 MySql。尤其是如果所需的输出是 Excel 文件,我会将其生成为 CSV,因为标准 Python 处理 CSV 文件比处理 Excel 更好。


推荐阅读