首页 > 解决方案 > python是否有字符串的字体?

问题描述

我最近使用 Google Vision API 从 pdf 中提取文本。现在我在响应文本中搜索关键字(来自 API)。当我比较给定的字符串和找到的字符串时,即使它们具有相同的字符,它们也不匹配。我能看到的唯一原因是给定和找到的字符串的字体类型看起来不同,这导致字符串中字符的 ascii/utf-8 代码不同。(我从来没有遇到过这样的问题)

如何解决这个问题?如何将这两个字符串带入相同的字符?我正在使用 Jupyter 笔记本,但我什至将比较粘贴在终端上,但仍将其评估为 False。

这是我要匹配的字符串:

'КА Р5259' == 'KA P5259'

但是它们在 Stack Overflow 上看起来是一样的,所以这里有一个截图:

一只忙碌的猫

标签: pythonstringstring-formatting

解决方案


感谢大家的评论。

我找到了解决方案。我在这里发布它,它可能对某人有帮助。实际上python不支持字体是正确的。因此,如果复制一个字体字符并将其粘贴到 python 控制台或 jupyter 笔记本(由于它使用 html 显示信息而呈现字体),它被认为是一个不同的 unicode 字符。

因此,想法是首先将文本响应以纯文本格式提供,我通过将响应存储在 .txt 文件(或更准确地说是 .pkl 文件)中来实现,无论如何我都必须这样做以保留响应对象以供以后数据分析目的。一旦响应存储在纯文本文件中,您就可以在没有任何字体问题的情况下阅读它,这与我上面遇到的不同。


推荐阅读