首页 > 解决方案 > 如何从 urllib python 获取网站的特定部分

问题描述

所以,现在我有这个非常简单的代码只是为了从网站https://generator.email/收集信息,这里是代码

import urllib.request f = urllib.request.urlopen("https://generator.email/") print(f.read())

我只想要显示电子邮件的页面部分,但我不知道从哪里开始。有人有想法么?

当我在wing ide中运行程序时,它给了我一个垃圾响应,这是其中一个响应:

无法在此处发布全文,但您可以在此链接中看到https://docs.google.com/document/d/18gIQZY1oFLd9eCpVbwabBrVwCrvRDBHuFOJgLD5n-S0/edit?usp=sharing

标签: pythonurllib

解决方案


从您的问题来看,您似乎需要学习 Web Scraping 的基础知识。您可以从 BeautifulSoup 或 Scrapy 开始构建爬虫。就您的问题而言,您想要的电子邮件文本部分可以通过 BeautifulSoup 和 python requests 模块轻松实现:

import requests
from bs4 import BeautifulSoup

base_url = 'https://generator.email/'
r = requests.get(base_url)
soup = BeautifulSoup(r.text, "html.parser")
data = soup.find_all('span', {"id":"email_ch_text"})
print(data[0].text)

推荐阅读