python - 从内部房间预订网站抓取数据
问题描述
目前我有一个关于从内部网络抓取数据的小任务,但我仍然不知道从哪里开始。
我有一个关于实验室预订的内部网站,您首先需要输入用户名和密码才能访问。
来到预约页面,过滤后,我得到了实验室A在7天内的预约信息列表,表示你将有7个表,分别为0、15、30、45列,分别代表分钟,行是 7:00, 8:00, .... 18:00 代表小时。当您单击每个单元格时,会出现一个新窗口,其中包含有关实验室及其状态(空闲/保留)的文本框中的信息。如果状态为“已预订”,它会附带有关预订者以及预订时间的信息。如果状态是“免费”,它会附带一个表格供您填写您的预订信息,但我想我们不会太在意这个。我的目标是在抓取数据后,我将有一个 csv 文件,其中列是天,行是时间,单元格中的信息是谁在预订时间段。
因为这是我们公司常用的内部预约网站,但是在我们这里使用时有实验室规则,所以我需要检查是否有人违反实验室预约规则,首先自动收集数据。我已经用python从一些网站上写了一个爬虫,但是那些没有这种格式,所以我有点迷茫。
解决方案
如果您尝试自动化此过程,我建议 Selenium[1]:https ://selenium-python.readthedocs.io/
或者,如果它只是爬行,您可以选择 Urllib2 或 Requests 等软件包,并结合 Beautiful Soup。
推荐阅读
- android - Android Webview:较小的显示尺寸会破坏布局
- javascript - 在 django html 模板中使用导航栏在 div 中安装 mapbox div
- angular - 无法读取多重中未定义错误的属性“长度”中的错误
- reactjs - React 在多个 Reactstrap 按钮之间切换活动类
- bash - 给定两个日期之间的时间差(以秒为单位)
- javascript - 我如何使这个游戏中的跳跃更顺畅。这是传送
- c# - 如何配置 asp.net kestrel 以实现低延迟?
- c++ - C ++解释赋值中的大括号?
- html - 用于文章反应的语义 HTML
- azure - 使用 spark 订阅事件中心时出现异常