python - beautifulsoup 不抓取电子邮件,但抓取格式
问题描述
我一直在尝试使用以下代码从此处获取电子邮件地址的不同方法:
email_pattern = 'a[href^=mailto]'
for email in soup.select(email_pattern):
print(email)
但是,当我这样做时,我得到了整个代码:
<a href="mailto:emailname61@yahoo.com?subject=?"><span class="ui_icon email _3ZW3afUk"></span><span class="_2saB_OSe">Email</span><span class="ui_icon external-link-no-box _2OpUzCuO"></span></a>
我只想得到“emailname61@yahoo.com”
我一直在尝试
email_pattern = 'a[href^=mailto]'
for email in soup.select(email_pattern.text):
print(email)
和
email_pattern = 'a[href^=mailto]'
for email in soup.select(email_pattern):
print(email.text)
但我只是收到电子邮件这个词或什么都没有。
如何获取电子邮件地址?
解决方案
你能试试吗
email_pattern = r"(^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$)"
推荐阅读
- spring-cloud-contract - Spring Cloud Contract for provider - 设置可选标头
- image - 如何在树枝模板中显示图像 GD 资源
- linker - 手动编译OpenSSL:制作共享对象时不能使用符号;使用 -fPIC 重新编译
- ocr - 为什么 Microsoft Cognitive 不返回每个 OCR 字段?
- angular - 在环境上下文中不允许使用 Angular2 打字稿错误初始化程序
- swift - 在单独文件中定义的 Swift 结构是否需要初始化程序?
- autodesk-forge - 下载衍生文件时的 HTTP 状态码
- docker - docker-compose.yml 中指定的资源限制没有被 docker 考虑
- javascript - ChartJS 在 show() 调用时重放图表动画
- c# - 如何替换文本文件中的特定行?