python - 如何从 urllib python 获取网站的特定部分
问题描述
所以,现在我有这个非常简单的代码只是为了从网站https://generator.email/收集信息,这里是代码
import urllib.request
f = urllib.request.urlopen("https://generator.email/")
print(f.read())
我只想要显示电子邮件的页面部分,但我不知道从哪里开始。有人有想法么?
当我在wing ide中运行程序时,它给了我一个垃圾响应,这是其中一个响应:
无法在此处发布全文,但您可以在此链接中看到https://docs.google.com/document/d/18gIQZY1oFLd9eCpVbwabBrVwCrvRDBHuFOJgLD5n-S0/edit?usp=sharing
解决方案
从您的问题来看,您似乎需要学习 Web Scraping 的基础知识。您可以从 BeautifulSoup 或 Scrapy 开始构建爬虫。就您的问题而言,您想要的电子邮件文本部分可以通过 BeautifulSoup 和 python requests 模块轻松实现:
import requests
from bs4 import BeautifulSoup
base_url = 'https://generator.email/'
r = requests.get(base_url)
soup = BeautifulSoup(r.text, "html.parser")
data = soup.find_all('span', {"id":"email_ch_text"})
print(data[0].text)
推荐阅读
- reactjs - 使用钩子生成一个列表,其中包含从画廊或相机中挑选的图像
- r - 在 R 中读取文本文件
- xml - 如何在 Odoo 12 中为表单域创建动态标签?
- scala - 使用 Spark/Scala,有没有办法加入复杂的数据结构?
- windows - Powershell 脚本 - 中断循环
- javascript - React 路由器不更新子组件参数
- python - 如何通过 Dart/Flutter 中的主机名获取本地连接设备的 IP 地址?
- java - yaml中的Java liquibase变量
- matlab - 无法执行分配,因为左侧的大小为 1×2,右侧的大小为 2×2
- kubernetes - 我将如何设置 kuberentes 入口以进行仅 VPN 访问?