首页 > 解决方案 > 从内部房间预订网站抓取数据

问题描述

目前我有一个关于从内部网络抓取数据的小任务,但我仍然不知道从哪里开始。

我有一个关于实验室预订的内部网站,您首先需要输入用户名和密码才能访问。

来到预约页面,过滤后,我得到了实验室A在7天内的预约信息列表,表示你将有7个表,分别为0、15、30、45列,分别代表分钟,行是 7:00, 8:00, .... 18:00 代表小时。当您单击每个单元格时,会出现一个新窗口,其中包含有关实验室及其状态(空闲/保留)的文本框中的信息。如果状态为“已预订”,它会附带有关预订者以及预订时间的信息。如果状态是“免费”,它会附带一个表格供您填写您的预订信息,但我想我们不会太在意这个。我的目标是在抓取数据后,我将有一个 csv 文件,其中列是天,行是时间,单元格中的信息是谁在预订时间段。

因为这是我们公司常用的内部预约网站,但是在我们这里使用时有实验室规则,所以我需要检查是否有人违反实验室预约规则,首先自动收集数据。我已经用python从一些网站上写了一个爬虫,但是那些没有这种格式,所以我有点迷茫。

标签: pythonweb-crawlerinternals

解决方案


如果您尝试自动化此过程,我建议 Selenium[1]:https ://selenium-python.readthedocs.io/

或者,如果它只是爬行,您可以选择 Urllib2 或 Requests 等软件包,并结合 Beautiful Soup。


推荐阅读