python - 从职位描述中抓取职位详细信息的最佳方法
问题描述
网络爬虫新手,我更喜欢使用 Python。有没有人对最简单的方法来抓取职位描述并将其输入到 Excel 文件有任何想法?你会用哪种刮刀?
解决方案
取决于,对于动态网站,Selenium 很棒。Selenium 是一种自动化 Web 操作的工具。Beautiful Soup 也是另一种选择。Beautiful Soup 不会自动执行网站操作,它只会抓取网站数据。在我看来,Beautiful Soup 更容易学习。一个基本的介绍就足够了。至于 excel 文件,您可以使用几个库,这更像是一种偏好。
然而,对于你的项目,我会选择美味的汤。
至于学习过程,YouTube 是寻找教程的好地方,两者都有。在这里找到任何问题的帮助也很容易。
为了给你一个关于你的程序的一般结构的提示,我会建议这样的事情:
第一步:打开一个excel文件,这个文件会一直保持打开状态
第二步:webscraper 定位职位描述的 HTML 标签
第三步:使用 for 循环循环浏览此标签中的每个职位描述
第四步:为每个标签检索数据并将其发送到 Excel 工作表
第五步:完成后关闭excel表
推荐阅读
- spring-boot - 在 jar 外加载 application.properties
- airflow - 如何使用 EcsOperator Airflow 在不同的文件夹中运行命令
- c# - EntityFramework Core SQLite 与列表
覆盖当前 ID 值而不是添加下一个 ID - swift - RxSwift - 从 UIPickerView 的 tableview 中过滤数据
- ios - 如何知道 SecureField 是否正在编辑
- javascript - Vue JS中如何根据axios的结果动态加载SCSS文件
- r - R 传单。使用弹出功能报告一条线穿过生成的网格单元的时间
- events - 如何处理skia中的事件?
- python - 打印所有可能结果的程序
- java - 线程饥饿与争用?