python - 使用 Transformer 进行多语言场景文本识别的单一模型
问题描述
我正在研究印度语言的场景文本识别问题。最近我偶然发现了这篇论文。它使用视觉转换器来识别英语文本。
我正在尝试为印度语言复制相同的模型,但有一个变化。而不是只识别一种语言的单词,我必须用单一模型识别 3 种语言,印地语、泰米尔语和卡纳达语。因此该模型应该识别图像中的语言(脚本)和单词。
使用变压器,我对如何做到这一点有一些想法。在这张图片中。用于场景文本识别的基本转换器架构
我们将 n 个特征向量(绿色框)和一个额外的类标记(蓝色框)一起输入到编码器,编码器输出 n+1 个向量。我们可以使用编码器第一个输出向量(图像中的蓝色向量)来检测类(又名脚本)。解码器使用剩余的向量来计算注意力。解码器进行最终的单词预测。
我想以某种方式将知识从输出类向量转移到解码器,以便解码器在每一步都预测来自同一脚本的字符。(例如,如果编码器预测语言是印地语,那么解码器应该预测印地语中的字符作为输出)在训练中,模型应该学习预测单词的语言(脚本)并预测单词。整个模型应该是端到端可训练的。
解决方案
推荐阅读
- javascript - 将字符串结尾添加到数组中每个成员的函数
- jquery - 隐藏每个点击的按钮
- python - 如果缺少字符,则加入行
- javascript - 如何使点击事件侦听器仅在移动屏幕尺寸上工作?
- javascript - 多个单个 onClick 事件
- dart - 在 CupertinoNavigationBar 中,我如何在前导中显示除后退按钮之外的按钮?
- sql - 如何操作 DB2 存储过程内部调用的存储过程返回的结果集
- request - 使用 create-react-app 向后端发出请求时 URI 无效
- c++ - 提升正则表达式 cpp 以查找 %% 之间的字符串,输出不包括 % 字符本身
- php - 如何使用opencart3在产品页面中显示upc?