python - python是否有字符串的字体?
问题描述
我最近使用 Google Vision API 从 pdf 中提取文本。现在我在响应文本中搜索关键字(来自 API)。当我比较给定的字符串和找到的字符串时,即使它们具有相同的字符,它们也不匹配。我能看到的唯一原因是给定和找到的字符串的字体类型看起来不同,这导致字符串中字符的 ascii/utf-8 代码不同。(我从来没有遇到过这样的问题)
如何解决这个问题?如何将这两个字符串带入相同的字符?我正在使用 Jupyter 笔记本,但我什至将比较粘贴在终端上,但仍将其评估为 False。
这是我要匹配的字符串:
'КА Р5259' == 'KA P5259'
但是它们在 Stack Overflow 上看起来是一样的,所以这里有一个截图:
解决方案
感谢大家的评论。
我找到了解决方案。我在这里发布它,它可能对某人有帮助。实际上python不支持字体是正确的。因此,如果复制一个字体字符并将其粘贴到 python 控制台或 jupyter 笔记本(由于它使用 html 显示信息而呈现字体),它被认为是一个不同的 unicode 字符。
因此,想法是首先将文本响应以纯文本格式提供,我通过将响应存储在 .txt 文件(或更准确地说是 .pkl 文件)中来实现,无论如何我都必须这样做以保留响应对象以供以后数据分析目的。一旦响应存储在纯文本文件中,您就可以在没有任何字体问题的情况下阅读它,这与我上面遇到的不同。
推荐阅读
- python - Python 2.7 Selenium 网站上没有这样的元素
- apache-spark - Spark Scala - 拆分字符串语法问题
- javascript - 是否可以在通过 javascript 修改的对象上添加事件监听器?
- php - Sylius 管理员控制器如何限制为管理员用户
- ios - 如何向另一个类中的 UIButton 添加操作
- c# - 查找三位数回文的问题
- node.js - 托管一个 Httpie 服务器
- c# - 在 C# 中将 json 转换为 xml 时缺少 xml 标头
- webgl - 如何使用 ext_disjoint_timer_query 扩展来分析 WebGL?
- c# - 每次都未触发 UserControl DependencyProperty 中的 WPF PropertyChanged