scrapy - 使用 Python 将图像类型的电子邮件转换为文本
问题描述
我偶然发现了一个网站,该网站为了保护其内容将普通文本转换为图像,因此它不能轻易被蜘蛛抓取。
这是代码:
<img id="ctl00_ctl00_cphMain_cphMainCol_CompanyDetailsInfoData1_imgMail"
src="https://www.bizi.si/ImageGenerator.aspx?JXwFUy4U5m5jKwuO3IgV3ASgH0Id5ve7uMFqS922Ezc6IUi0sEN3kHSxb0hVFQZUGP73%2bADQ6cwFmaVlY5EkzN0wTftd%2bET2KzDb1TxL434%3d">
包含企业电子邮件的 URL 如下所示:
渲染时显示如下图:
有谁知道如何将上述网址解码为普通文本?
谢谢!
解决方案
您必须下载图像(Request
为图像 URL 生成 a,图像字节将在 中可用response.body
)并使用 OCR 解决方案,例如https://github.com/madmaze/pytesseract。
推荐阅读
- java - WireMock:200 个存根工作,但未找到具有服务故障的存根
- google-apps-script - 使用 GAS batchUpdate 将数据从 Google 表格自定义表单上的特定单元格复制到同一电子表格中不同工作表上的特定行
- python - 转置矩阵 Python Pandas
- c# - C#调用具有默认实现的接口方法
- r - 绘制多个组的嵌套分类值的折线图 (ggplot2)
- c# - 遍历列表,但无法访问不同的项目值
- mysql - sql查询性能低
- android - 使用 FlexboxLayout 的浮动窗口的最大宽度大小是有限的
- google-apps-script - 有没有办法让电子邮件在没有 Google Apps 脚本过滤器的情况下跳过收件箱?
- html - @media 查询没有响应平板电脑和桌面视图