beautifulsoup - Beautifulsoup 抓取多个页面
问题描述
我试图弄清楚如何循环浏览多个页面以获取确实的公司评级。有任何想法吗???这是我为提取一页数据所做的工作。
def parse(base_url):
base_url = requests.get('https://www.indeed.com/cmp/Google/reviews', timeout=5)
page_content = BeautifulSoup(base_url.content, 'lxml')
containers = page_content.findAll('div', {'class':'cmp-review-container'})
df = pd.DataFrame(columns = ['rating', 'rating_title', 'rating_description',
'rating_pros', 'rating_cons'])
for item in containers:
try:
rating = item.find('div', {'class': 'cmp-ratingNumber'}).text.replace('\n', '')
except:
rating = None
try:
rating_title = item.find('div', {'class': 'cmp-review-title'}).text.replace('\n', '')
except:
rating_title = None
try:
rating_description = item.find('span', {'class': 'cmp-review-text'}).text.replace('\n', '')
except:
rating_description = None
try:
rating_pros = item.find('div', {'class': 'cmp-review-pro-text'}).text.replace('\n', '')
except:
rating_pros = None
try:
rating_cons = item.find('div', {'class': 'cmp-review-con-text'}).text.replace('\n', '')
except:
rating_cons = None
df = df.append({'rating': rating, 'rating_title': rating_title, 'rating_description': rating_description,
'rating_pros': rating_pros, 'rating_cons': rating_cons}, ignore_index=True)
return df
解决方案
推荐阅读
- amazon-web-services - cloud-init cc_mounts.py 忽略 AWS EFS 挂载
- vba - Excel 错误 1004 用于特殊粘贴
- php - Twig 2 数组和 For 循环
- c - 当描述符重叠时,C11 数组初始化的行为是什么?
- java - 无法获取测试代码以使用 gradle 查找源代码
- html - css on focus 改变另一个 div 的样式
- python - Python十进制值处理
- c# - 如何在 c# 中列出所有带有 oid 的 Microsoft CA 证书模板
- docker - 使用 openshift 源 Web 控制台时 https 重定向到 127.0.0.1
- javascript - 如何正确剪树枝