首页 > 解决方案 > 使用 Python 将图像类型的电子邮件转换为文本

问题描述

我偶然发现了一个网站,该网站为了保护其内容将普通文本转换为图像,因此它不能轻易被蜘蛛抓取。

这是代码:

<img id="ctl00_ctl00_cphMain_cphMainCol_CompanyDetailsInfoData1_imgMail"
 src="https://www.bizi.si/ImageGenerator.aspx?JXwFUy4U5m5jKwuO3IgV3ASgH0Id5ve7uMFqS922Ezc6IUi0sEN3kHSxb0hVFQZUGP73%2bADQ6cwFmaVlY5EkzN0wTftd%2bET2KzDb1TxL434%3d">

包含企业电子邮件的 URL 如下所示:

https://www.bizi.si/ImageGenerator.aspx?JXwFUy4U5m5jKwuO3IgV3ASgH0Id5ve7uMFqS922Ezc6IUi0sEN3kHSxb0hVFQZUGP73%2bADQ6cwFmaVlY5EkzN0wTftd%2bET2KzDb1TxL434%3d

渲染时显示如下图:

在此处输入图像描述

有谁知道如何将上述网址解码为普通文本?

谢谢!

标签: scrapy

解决方案


您必须下载图像(Request为图像 URL 生成 a,图像字节将在 中可用response.body)并使用 OCR 解决方案,例如https://github.com/madmaze/pytesseract


推荐阅读