首页 > 解决方案 > 有人可能知道这个 Python 中的 Web Scraping

问题描述

大家好,我需要一些帮助。我想从这个网站https://ccrs.pmi.org/search/course-provider/1000000396?courseID=472010&courseName=Agile%20for%20Marketing抓取电子邮件

我对这个检查过的元素有疑问,因为当我启动程序时,电子邮件没有显示在可能的代码中:

<div class="col-xs-12">
  <div class="separator-rule heading"></div>
  <h4>Provider Main Contact</h4>
  "
                              Klaus Stephan"
  <br>
  "
                              +49++49 16091922165"
  <br>
  "
                              president@pmicc.de
                          "
</div>

有人可以知道如何从中捕获电子邮件。谢谢你们的帮助。

标签: pythonweb-scraping

解决方案


要从块中获取电子邮件,"Provider Main Contact"您可以使用以下示例:

import requests 
from bs4 import BeautifulSoup


url = 'https://ccrs.pmi.org/search/course-provider/1000000396?courseID=472010&courseName=Agile%20for%20Marketing'
soup = BeautifulSoup(requests.get(url).content, 'html.parser')

main_contact_block = soup.select_one('div:has(>h4:contains("Provider Main Contact"))')

emails = [text.strip() for text in main_contact_block.find_all(text=True) if '@' in text]
print(emails)

印刷:

['president@pmicc.de']

推荐阅读